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本 书 从 程序 员 的 视角 详细 阐述 计算 机 系统 的 本 质 概念 ， 并 展示 这 些 概念 如 何 实 实在 在 地 影 啊 应 用 程序 的 
正确 性 、 性 能 和 实用 性 。 全 书 共 12 章 ， 主 要 内 容 包括 信息 的 表示 和 处 理 、 程 序 的 机 器 级 表示 、 处 理 器 体系 结 
构 、 优 化 程序 性 能 、 存 储 器 层次 结构 、 链 接 、 腊 第 控制 流 、 虚 拟 存 储 器 、 系 统 级 WO、 网 络 编程 、 并 发 编程 
等 。 书 中 提供 了 大 量 的 例子 和 练习 题 ， 并 给 出 部 分 答案 ， 有 助 于 读者 加 深 对 正文 所 述 概念 和 知识 的 理解 。 

本 书 适合 作为 高 等 院 校 计算 机 及 相关 专业 本 科 生 、 研 究 生 的 教材 ， 站 更 可 靠 程序 
的 程序 员 及 专业 技术 人 员 参 考 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 个 
领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 
独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 
泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 划 了 研究 的 范畴 ， 
还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻 重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 几 十 年 
间 积 淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 
计算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 大 学 的 必 由 
之 路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工作 
重点 放 在 了 北 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill， 
Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 和 良好 的 合作 关系 ， 从 
他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup ，Brain W. Kernighan， 
Dennis Ritchie, Jim Gray，Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman，Abraham 
Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy，Larry L. Peterson 等 大 师 名 
家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 
的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 了 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 
的 选 题 指 导 ， 还 不 群 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 
传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 
这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 
典 原版 书库 ”作为 妹妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 教 育 
界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意 
见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 
予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 : 100037 
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本 书 通过 程序 员 的 视角 来 介绍 计算 机 系统 ， 首 先 把 高 级 语言 转换 成 计算 机 所 能 理解 的 一 种 中 
闻 格 式 〈 如 汇编 语言 )， 然 后 描述 计算 机 如 何 解释 和 执行 这 些 中 间 格 式 的 程序 ， 系 统 的 哪 一 部 分 
影响 程序 的 执行 效率 。 在 讲述 计算 机 系统 知识 的 同时 ， 也 给 出 了 关于 C 语言 和 汇编 语言 的 编程 、 
阅读 技巧 以 及 基本 的 系统 编程 工具 ， 还 给 出 一 些 方法 帮助 程序 员 基 于 对 计算 机 系统 的 理解 来 改善 
程序 的 性 能 等 问题 。 本 书 强 调 对 计算 机 系统 概念 的 理解 ， 但 并 不 意味 着 不 动手 。 如 果 按 照 本 书 的 
安排 做 每 一 章 后 面 的 习题 ， 将 有 助 于 加 深 对 正文 所 述 概念 和 知识 的 理解 ， 更 可 以 从 实际 动手 中 学 
习 到 新 的 知识 。 

本 书 的 主要 内 容 是 关于 计算 机 体系 结构 与 编译 器 和 操作 系统 的 交互 ， 包 括 : 数据 表示 ， 汇 编 
语言 和 汇编 级 计算 机 体系 结构 ， 处 理 器 设计 ， 程 序 的 性 能 度量 和 优化 ， 程 序 的 加 载 器 、 链 接 器 和 
编译 器 ，LO 和 设备 的 存储 器 层次 结构 ， 虚 拟 存储 器 ， 外 部 存储 管理 ， 中 断 、 信 和 号 和 进程 控制 。 

本 书 的 最 大 优点 是 为 程序 员 摘 述 计算 机 系统 的 实现 细节 ， 帮 助 其 在 大 脑 中 构造 一 个 层次 型 的 
计算 机 系统 ， 从 最 底层 的 数据 在 内 存 中 的 表示 〈 如 大 多 数 程序 员 一 直 陌 生 或 疑惑 的 浮 点 数 表示 )， 
到 流水 线 指令 的 构成 ， 到 虚拟 存储 器 ， 到 编译 系统 ， 到 动态 加 载 库 ， 到 最 后 的 用 户 态 应 用 。 贯 串 
本 书 的 一 条 主线 是 使 程序 员 在 设计 程序 时 ， 能 充分 意识 到 计算 机 系统 的 重要 性 ， 建 立 起 所 写 程 序 
可 能 被 执行 的 数据 或 指令 流 图 ， 明 白 执行 程序 时 到 底 发 生 了 什么 事 ， 从 而 能 设计 出 高 效 、 可 移 
植 、 健 壮 的 程序 ， 并 能 够 更 快 地 对 程序 排 错 、 改 进程 序 性 能 等 。 

原 书 是 卡 内 基 一 梅 隆 大 学 “CMU) 的 教材 ， 现 在 很 多 国内 外 著名 的 大 学 也 选用 其 作为 教材 
或 辅助 性 资料 ， 因 此 ， 本 书 的 读者 不 仅仅 是 那些 因为 工作 和 兴趣 而 关注 本 书 的 人 ， 还 包括 一 些 在 
校 的 大 学 生 。 我 们 认为 ， 在 校 学 生 越 早 接触 本 书 的 内 容 ， 将 越 有 利于 他 们 学 习 计算 机 的 相关 课 
程 ， 培 养 对 计算 机 系统 的 研究 兴趣 。 

总 的 来 说 ， 本 书 是 一 座 桥 梁 ， 它 帮助 程序 员 衔接 了 计算 机 系统 各 个 领域 的 知识 ， 为 程序 员 构 
造 了 一 个 概念 性 框架 。 要 想 获取 更 多 关于 计算 机 系统 结构 、 操 作 系 统 、 编译 花 、 网 络 、 并 发 编程 
方面 的 知识 ， 还 需要 进一步 阅读 相关 书籍 。 

本 书 第 2 版 距 第 1 版 出 版 已 有 7 年 时 间 了 。 由 于 计算 机 技术 的 飞速 发 展 ， 第 2 版 相对 于 第 1 
版 做 了 大 量 的 修改 。 首 先 ， 针 对 硬件 技术 和 编译 器 技术 的 变化 ， 第 2 版 对 系统 的 介绍 ， 特 别 是 实 
际 使 用 部 分 ， 做 了 增加 和 修改 。 例 如 ， 既 保持 了 原 有 的 针对 32 位 系统 的 说 明 ， 又 增加 了 对 64 位 
系统 的 描述 。 其 次 ， 第 2 版 增加 了 很 多 关于 由 算术 运算 洲 出 以 及 缓冲 区 洲 出 造成 安全 漏洞 的 内 
容 。 第 三 ， 更 详细 地 讲述 了 处 理 器 对 异常 的 发 现 和 人 处理， 这 是 计算 机 系统 中 的 一 个 重点 和 难点 。 
第 四 ， 对 存储 器 的 描述 改 为 了 基于 Intel Core i7 处 理 器 的 存储 器 层次 结构 ， 还 增加 了 固态 硬盘 的 
内 容 。 第 五 ， 强 调 了 并 发 性 ， 并 发 性 既 体 现在 处 理 器 的 实现 中 ， 也 体现 在 应 用 程序 编程 中 。 

这 次 我 们 不 仅 对 第 2 版 较 第 1 版 有 改动 之 处 做 了 仔细 的 翻译 ， 而 且 对 第 1 版 的 译 稿 做 了 重新 
审视 和 校正 ， 更 加 精益 求 精 。 比 如 ， 在 保证 原意 正确 的 情况 下 ， 对 一 些 句 式 做 了 变动 ， 尽 量 减 少 
被 动 语 态 的 使 用 等 ， 以 符合 中 国人 的 阅读 习惯 。 再 如 ， 根 据 我 们 这 几 年 教授 “计算 机 体系 结构 ” 
课程 的 经 验 ， 改 变 了 某 些 术 语 的 翻译 ， 使 之 更 接近 于 中 文教 科 书 中 的 术语 使 用 。 

本 书 中 有 些 术语 的 翻译 还 是 让 我 们 难以 抉择 。 在 此 ， 我们 预先 做 一 些 解释 和 说 明 。operator 
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这 个 词 ， 如 果 根 据 上 下 文 ， 它 表示 的 是 一 个 和 运算， 我们 就 翻译 成 运算 符 ; 如 果 它 对 应 于 一 个 操 
作 ， 我 们 就 翻译 成 操作 符 。local variable， 可 以 翻译 成 局 部 变量 ， 也 可 以 翻译 成 本 地 变量 。 考 虑 
到 还 有 local data、local buffer 等 词 ， 我 们 选择 统一 将 local 翻译 成 “局 部 的 ”。chunk 这 个 词 是 一 
片 或 者 一 块 的 意思 ， 常 常用 来 表示 一 块 连续 的 内 存 区 域 。 它 在 第 6 章 、 第 7 章 和 第 9 章 中 出 现 较 
多 ， 为 了 使 之 区 别 于 block ( 块 )， 我 们 选择 将 其 翻译 成 “ 片 ”。 

本 书 主要 由 奢 奕 利和 雷 迎 春 负责 翻 译 完 成 。 此 外 ， 刘 晓 文 、 李 晓 玲 、 艺 文 卓 和 张 育 也 参与 
了 翻译 和 校对 工作 。 在 此 ， 还 要 感谢 王 文 杰 ， 他 经 常 和 我 们 一 起 讨论 翻译 中 遇 到 的 问题 。 

由 于 本 书 内 容 较 多 ， 翻 译 时 间 紧 迫 ， 尽 管 我 们 尽量 做 到 认真 仔细 ， 但 还 是 难以 避免 出 现 错误 
和 不 尽 如 人 意 的 地 方 。 在 此 欢迎 广大 读者 批评 指正 ， 我 们 也 会 把 勘误 表 及 时 在 网 上 更 新 ， 便 于 大 
家 阅读 。 -0 


姥 卖 利 ” 雷 迎春 
2010 年 9 月 于 焉 徊 山 


计算 机 精品 学 习 资 料 大 放送 


软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 

java 一 览 无 余 : java 视频 教程 | Java SE | Java EE 

.Net 技术 精品 资料 下 载 汇总 ，ASP.NET 篇 

.Net 技术 精品 资料 下 载 汇总 : C# 语 言 

.Net 技术 精品 资料 下 载 汇总 : VB.NET 篇 

撼 世 出 击 : C/ C++ 编程 语言 学 习 资料 尽 收 眼 底 电子 书 + 视 频 教程 
Visual C++(VC/ MFC) 学 习 电 子 书 及 开发 工具 下 载 

Perl/ CGI 脚本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 十 视频 教程 ) 下 载 汇 总 

最 新 最 全 Ruby、Ruby on Rails 精品 电子 书 等 学 习 资料 下 载 
数据 库 精 品 学 习 资 源 汇总 ， MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/ xHTML、CSS 精品 学 习 资料 下 载 汇总 

最 新 javaScript、Ajax 典藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开发 工具 + 电子 书 + 视 频 教程 等 资料 下 载 汇 总 

UML 学 习 电 子 资 下 载 汇 总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教 程 一 帖 通 
天 罗 地 网 : 精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教 程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇 总 

UNIX 操作 系统 精品 学 习 资料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/ OpenBSD/ NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/ OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索 引 
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本 书 的 主要 读者 是 计算 机 科学 家 、 计 算 机 工程 师 ， 以 及 那些 想 通 过 学 习 计 算 机 系统 的 内 在 运 
作 而 能 够 写 出 更 好 程序 的 人 。 

我 们 的 目的 是 解释 所 有 计算 机 系统 的 本 质 概念 ， 并 向 你 展示 这 些 概念 是 如 何 实 实在 在 地 影响 
应 用 程序 的 正确 性 、 性 能 和 实用 性 的 。 其 他 的 系统 类 书籍 都 是 从 构建 者 的 角度 来 写 的 ， 讲 述 如 何 
实现 硬件 或 是 系统 软件 ， 包 括 操作 系统 、 编 译 器 和 网 络 接口 。 而 本 书 是 从 程序 员 的 角度 来 写 的 ， 
讲述 应 用 程序 员 如 何 能 够 利用 系统 知识 来 编写 出 更 好 的 程序 。 当 然 ， 学 习 一 个 计算 机 系统 应 该 做 
些 什么 ， 是 学 习 如 何 构 建 一 个 计算 机 系统 的 很 好 的 出 发 点 ， 所 以 ， 对 于 希望 继续 学 习 系 统 软 硬件 
实现 的 人 来 说 ， 本 书 也 是 一 本 很 有 价值 的 介绍 性 读物 。 

如 果 你 研究 和 领会 了 这 本 书 里 的 概念 ， 你 将 开始 成 为 极 少 数 的 “牛人 ” 这些“ 牛人 ”知道 
事情 是 如 何 运 作 的 ， 也 知道 当 事 情 出 现 故障 时 如 何 修复 。 我 们 的 目标 是 以 一 种 你 会 立刻 发 现 很 有 
用 的 方式 来 呈现 这 些 基 本 概念 。 同 时 ， 你 也 要 做 好 更 深入 探究 的 准备 ， 研 究 像 编译 器 、 计 算 机 体 
系 结构 、 操 作 系统 、 艇 入 式 系 统 和 网 络 互联 这 样 的 题目 。 


读者 所 应 具备 的 背景 知识 


本 书 中 的 机 器 代码 表示 是 基于 英特尔 及 其 竞争 者 支持 的 两 种 相关 联 的 格式 ， 俗 称 “x86”。 对 
于 很 多 系统 来 说 ，IA32 机 器 代码 已 经 成 为 一 种 事实 上 的 标准 。x86-64 是 IA32 的 一 种 扩展 ， 它 
允许 程序 操作 更 多 的 数据 ， 引 用 更 广 范围 的 内 存 地 址 。 由 于 x86-64 系统 可 以 运行 IJA32 的 代码 ， 
因而 在 可 预见 的 未 来 ， 这 两 种 格式 的 机 器 代码 都 会 得 到 广泛 的 应 用 。 我 们 考虑 的 是 这 些 机 器 如 
何在 Unix 或 类 Unix (比如 Linux) 操作 系统 上 运行 C 语言 程序 。( 为 了 简化 表述 ， 我 们 用 术语 
Unix 来 统称 所 有 继承 自 Unix 的 系统 ， 包 括 Solaris、Mac OS 和 Linux 在 内 。) 文中 包含 大 量 已 在 
Linux 系统 上 编译 和 运行 过 的 程序 范例 。 我 们 假设 你 能 访问 一 台 这 样 的 机 器 ， 并 且 能 够 登录 ， 能 
够 做 一 些 诸如 切换 目录 之 类 的 简单 操作 。 

如 果 你 的 计算 机 运行 的 是 Microsoft Windows 系统 ， 你 有 两 种 选择 : 一 种 是 获取 一 个 Linux 
的 拷贝 《参见 www .ubuntu.com)， 然 后 安装 Linux 作为 “双重 启动 ”的 一 个 选项 ， 这 样 你 的 
机 器 就 能 运行 其 中 任意 一 个 操作 系统 了 ; 另 一 种 是 通过 安装 Cygwin 工具 (www.cygwin.com)， 你 
就 能 在 Windows 下 得 到 一 个 类 似 Unix 的 外 壳 〈shell) 以 及 一 个 非常 类 似 于 Linux 所 提供 的 环 
境 。 不 过 ，Cygwin 并 不 能 提供 所 有 的 Linux 功能 。 

我 们 还 假设 你 对 C 和 C++ 有 一 定 的 了 解 。 如 果 你 以 前 只 有 Java 经 验 ， 那 么 你 需要 付出 更 多 
的 努力 来 完成 这 种 转换 ， 不 过 我 们 也 会 帮助 你 。Java 和 C 有 相似 的 语法 和 控制 语句 。 不 过 ， 有 
一 些 C 语言 的 内 容 ， 特 别 是 指针 、 显 式 的 动态 内 存 分 配 和 格式 化 WO，Java 中 都 是 没有 的 。 所 幸 
的 是 ，C 是 一 个 较 小 的 语言 ， 在 Brian Kernighan 和 Dennis Ritchie 经 典 的 “K&R” 文 献 中 得 到 了 
清晰 优美 的 描述 [$8]。 无 论 你 的 编程 背景 如 何 ， 都 应 该 考虑 将 K&R 作为 你 个 人 系统 书籍 收藏 的 
一 部 分 。 

这 本 书 的 前 几 章 揭示 了 C 语言 程序 和 它们 相对 应 的 机 器 语言 程序 之 间 的 交互 作用 。 机 器 语 
言 示例 都 是 用 运行 在 IA32 和 x86-64 处 理 器 上 的 GNU GCC 编译 器 生成 的 。 我 们 不 需要 你 以 前 有 
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任何 硬件 、 机 器 语言 或 是 汇编 语言 编程 的 经 验 。 


C 语言 初学 者 : 关于 C 编程 语言 的 建议 
为 了 帮助 C 语 言 编 程 背 景 薄弱 (或 全 无 背景 ) 的 读者 ， 我 们 在 书 中 加 入 了 这 样 一 些 专门 的 
注释 来 突出 C 中 一 些 特别 重要 的 特性 。 我 们 假设 你 部 悉 C++ 或 Java。 


如 何 阅 读 此 书 


从 程序 员 的 角度 来 学 习 计 算 机 系统 是 如 何 工作 的 会 非常 有 趣 ， 主 要 是 因为 你 可 以 主动 地 来 做 
这 件 事情 。 无 论 何 时 你 学 到 一 些 新 的 东西 ， 都 可 以 马上 试验 并 且 直 接 看 到 运行 结果 。 事 实 上 ， 我 
们 相信 学 习 系统 的 唯一 方法 就 是 做 (do) 系统 ， 即 在 真正 的 系统 上 解决 具体 的 问题 ， 或 是 编写 和 
运行 程序 。 

这 个 主题 观念 贯穿 全 书 。 当 引入 一 个 新 概念 时 ， 将 会 有 一 个 或 多 个 练习 题 紧 随 其 后 ， 你 应 该 
马上 做 一 做 来 检验 你 的 理解 。 这 些 练习 题 的 解答 在 每 章 的 末尾 。 当 你 阅读 时 ， 尝 试 目 己 来 解 人 省 每 
个 问题 ， 然 后 再 查阅 答案 ， 看 看 目 己 的 答案 是 否 正 确 。 每 一 章 后 面 都 有 一 组 难度 不 同 的 家 庭 作 业 
题 。 对 每 个 家 庭 作业 题 ， 我 们 标注 了 难度 级 别 : : 

* 只 需要 几 分 钟 。 几 乎 或 完全 不 需要 编程 。 

** 可 能 需要 将 近 20 分 钟 。 通 常 包括 编写 和 测试 一 些 代码 ， 许 多 都 源 自 我 们 在 考试 中 出 的 
题目 。 

党 需要 很 大 的 努力 ， 也 许 是 1 ~ 2 个 小 时 。 一 般 包 括 编 写 和 测试 大 量 的 代码 。 

六 一 个 实验 作业 ， 需 要 将 近 10 个 小 时 。 

书 中 每 段 代码 示例 都 是 经 过 GCC 编译 并 在 Linux 系统 上 测试 后 直接 生成 的 ， 没 有 任何 人 为 
的 改动 。 当 然 ， 你 的 系统 上 GCC 的 版 本 可 能 不 同 ， 或 者 根本 就 是 另外 一 种 编译 器 ， 那 么 可 能 生 
成 不 一 样 的 机 器 代码 ， 但 是 整体 行为 表现 应 该 是 一 样 的 。 所 有 的 源 程 序 代码 都 可 以 从 CS:APP 的 
主页 (csapp.cs.cmu.edu) 上 获取 。 在 本 书 中 ， 源 程序 的 文件 名 列 在 两 条 水 平 线 的 右边 ， 水 平 线 
之 间 是 格式 化 的 代码 。 比 如 ， 贺 1 中 的 程序 能 在 code/intro/ 目录 下 的 hello.c 文件 中 找到 。 当 遇 
到 这 些 示 例 程序 时 ， 我 们 鼓励 你 在 自己 的 系统 上 试 试 运行 它们 。 


code/intro/hello.c 

1 #include <stdio.h> 
; 
3 int main() 
4 荆 
5 printf{("hello, world\n'"); 
6 return 0; 
法 

code/intro/hello.c 


图 1 一 个 典型 的 代码 示例 


为 了 避免 使 本 书 体积 过 大 ， 内 容 过 多 ， 我 们 创建 了 许多 网 络 旁 注 (Web aside)， 包 括 一 些 对 
本 书 主要 内 容 的 补充 资料 。 本 书 中 用 CHAP:TOP 这 样 形式 的 标记 来 引用 这 些 旁 注 ， 这 里 CHAP 
是 该 章 主题 的 一 个 缩写 编码 ， 而 TOP 是 涉及 的 话题 的 缩写 代码 。 例 如 ， 网 络 旁 注 DATA:BOOL 
包含 有 对 第 2 章 中 数据 表示 里 面 有 关 布 尔 代数 的 内 容 的 补充 资料 ; 而 网 络 旁 注 ARCH:VLOG 包 
含 的 是 用 Verilog 硬件 描述 语言 来 做 处 理 器 设计 的 资料 ， 是 对 第 4 章 中 处 理 器 设计 部 分 的 补充 。 
所 有 的 网 络 旁 注 都 可 以 从 CS:APP 的 主页 上 获取 。 
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什么 是 旁 注 ? 

在 整 本 书 中 ， 你 将 会 遇 到 很 多 以 加 框 形式 出 现 的 劳 注 。 旁 注 是 附加 说 明 ， 能 使 你 对 当前 讨 
论 的 主题 多 一 些 了 解 。 旁 注 可 以 有 很 多 用 处 。 一 些 是 小 的 历史 故事 。 例 如 ，C 语言 、Linux 和 
Internet 是 从 何 而 来 的 ? 有 些 旁 注 是 用 来 洪 清 学 生 们 经 常 感到 疑惑 的 问题 。 例 如 ， 高 速 缓存 的 行 、 
组 和 块 有 什么 区 别 ? 还 有 的 这 注 给 出 了 一 些 现实 世界 的 例子 。 例 如 ， 一 个 浮 点 错误 怎么 毁 掉 了 法 
国 的 一 枚 火 科 ， 或 者 是 一 个 真正 的 希捷 磁 盘 驱 动 器 看 上 去 是 什么 样子 的 。 最 后 ， 还 有 一 些 旁 注 仅 
仅 就 是 一 些 有 趣 的 和 内容， 例如 什么 是 “hoinky””? 


本 书 概述 


本 书 由 12 章 组 成 ， 旨 在 阐述 计算 机 系统 的 核心 概念 。 

“第 1 章 :; 计算 机 系统 漫游 。 这 一 章 通过 研究 “hello, world” 这 个 简单 程序 的 生命 周期 ， 介 

绍 计算 机 系统 的 主要 概念 和 主题 。 z 

第 2 章 : 信息 的 表示 和 处 理 。 我 们 讲述 了 计算 机 的 算术 运算 ， 重点 描述 了 会 对 程序 员 有 影 

响 的 无 符号 数 和 数 的 二 进 制 补 码 (two’s complement) 表示 的 特性 。 我 们 考虑 数字 是 如 何 

表示 的 ， 以 及 由 此 确定 对 于 一 个 给 定 的 字 长 ， 其 可 能 编码 值 的 范围 。 我 们 讨论 该 如 何 表示 

数字 ， 以 及 因此 用 给 定 的 字 长 能 编码 的 数值 的 范围 。 我 们 探讨 有 符号 和 无 符号 数字 之 间 类 

型 转换 的 效果 ， 还 阐述 算术 运算 的 数学 特性 。 菜 鸟 级 程序 员 经 常 很 惊奇 地 了 解 到 (用 二 进 

制 补 码 表示 的 ) 两 个 正 数 的 和 或 者 积 可 能 为 负 。 另 一 方面 ， 二 进 制 补 码 的 算术 运算 满足 代 

数 环 的 特性 ， 因 此 ， 编 译 器 可 以 很 安全 地 把 一 个 常量 乘法 转化 为 一 系列 的 移 位 和 加 法 。 我 

们 用 C 语言 的 位 级 操作 来 说 明 布尔 代数 的 原理 和 应 用 。 我 们 从 两 个 方面 讲述 了 IEEE 标准 

”的 浮 点 格式 : 一 是 如 何 用 它 来 表示 数值 ， 一 是 浮 点 运算 的 数学 属性 。 

对 计算 机 的 算术 运算 有 深刻 的 理解 是 写 出 可 靠 程序 的 关键 。 比 如 ， 程 序 员 和 编译 器 不 能 用 
表达 式 (x-y<0) 来 替代 (x<y)， 因 为 前 者 可 能 会 产生 溢出 。 甚 至 于 也 不 能 用 表达 式 〈-y<-x) 
来 替代 ， 因 为 在 二 进 制 补 码 表示 中 负数 和 正 数 的 范围 是 不 对 称 的 。 算 术 溢出 是 造成 程序 错误 和 安 
全 漏洞 的 一 个 常见 根源 ， 然 而 很 少 有 书 从 一 个 程序 员 的 角度 来 讲述 计算 机 算术 运算 的 特性 。 

第 3 章 : 程序 的 机 器 级 表示 。 我 们 教 读者 如 何 阅读 由 C 编译 器 生成 的 IA32 和 x86-64 汇编 

语言 。 我 们 说 明 为 不 同 控制 结构 ， 比 如 条 件 、 循 环 和 开关 语句 ， 生 成 的 基本 指令 模式 。 我 

们 还 讲述 过 程 的 执行 ， 包 括 栈 分 配 、 寄 存 器 使 用 惯例 和 参数 传递 。 我 们 讨论 不 同 数据 结构 

(如 结构 、 联 合 (union〉 和 数组 ) 的 分 配 和 访问 方式 。 我 们 还 以 分 析 程序 在 机 器 级 的 样子 

作为 途径 ， 来 理解 常见 的 代码 安全 漏洞 ， 例 如 ， 缓 冲 区 溢出 ， 以 及 理解 程序 员 、 编 译 器 和 

操作 系统 可 以 采取 的 减轻 这 些 威胁 的 措施 。 学 习 本 章 的 概念 能 够 帮助 读者 成 为 更 好 的 程序 

员 ， 因 为 你 们 懂得 程序 在 机 器 上 是 如 何 表示 的 。 另 外 一 个 好 处 就 在 于 读者 会 对 指针 有 非常 

全 面 而 具体 的 理解 。 

。 第 4 章 : 处 理 器 体系 结构 。 这 一 章 讲 述 基本 的 组 合 和 时 序 逻 辑 元 素 ， 并 展示 这 些 元 素 如 

何在 数据 通路 (datapath) 中 组 合 到 一 起 来 执行 IA32 指令 集 的 一 个 称 为 “Y86” 的 简化 子 

集 。 我 们 从 设计 单 时 钟 周期 、 非 流水 线 化 的 数据 通路 开始 ， 这 个 设计 概念 上 非常 简单 ， 但 

是 运行 速度 不 会 太 快 。 然 后 我 们 引入 流水 线 化 (pipelining) 的 思想 ， 将 处 理 一 条 指令 所 需 

要 的 不 同步 又 实现 为 独立 的 阶段 。 这 个 设计 中 ， 在 任何 时 刻 ， 每 个 阶段 都 可 以 处 理 不 同 的 

指令 。 我 们 的 五 阶段 处 理 器 流水 线 更 加 实用 。 本 章 中 处 理 器 设计 的 控制 逻辑 是 用 一 种 称 为 

HCL 的 简单 硬件 描述 语言 来 描述 的 。 用 HCL 写 的 硬件 设计 能 够 编译 和 链接 到 本 书 提供 的 
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模拟 器 中 ， 还 可 以 根据 这 些 设计 生成 Verilog 描述 ， 它 适合 合成 〈synthesis) 到 实际 可 以 运 
行 的 硬件 上 去 。 
“第 5 章 : 优化 程序 性 能 。 在 这 一 章 里 ， 我 们 介绍 了 许多 提高 代码 性 能 的 技术 ， 主 要 思想 陨 
是 让 程序 员 通 过 使 编译 器 能 够 生成 更 有 效 的 机 器 代码 来 学 习 编 写 C 代码 。 我 们 一 开始 介绍 
的 是 减少 程序 需要 做 的 工作 的 变换 ， 这 些 是 在 任何 机 器 上 写 任何 程序 时 都 应 该 遵循 的 。 然 
后 讲 的 是 增加 生成 的 机 器 代码 中 指令 级 并 行 度 的 变换 ， 因 而 提高 了 程序 在 现代 “超标 量 ” 
(Csuperscalar) 处 理 器 上 的 性 能 。 为 了 解释 这 些 变 换行 之 有 效 的 原理 ， 我 们 介绍 了 一 个 简单 
的 操作 模型 ， 它 描述 了 现代 乱 序 (out-of-order〉 处 理 器 是 如 何 工 作 的 ， 然 后 给 出 了 如 何 根 
据 一 个 程序 的 图 形 化 表示 中 的 关键 路 径 来 测量 一 个 程序 可 能 的 性 能 。 你 会 惊讶 于 对 C 代码 
做 一 些 简 单 的 变换 能 给 程序 带 来 多 大 的 速度 提升 。 
“第 6 章 : 看 储 器 层次 结构 。 对 应 用 程序 员 来 说 ， 存 储 器 系统 是 计算 机 系统 中 最 直接 可 见 的 
”部 分 之 一 。 到 目前 为 止 ， 读 者 一 直 认同 这 样 一 个 存储 器 系统 概念 模型 ， 认 为 它 是 一 个 有 
一 致 访问 时 间 的 线性 数组 。 实 际 上 ， 存 储 器 系统 是 一 个 由 不 同 容量 、 造 价 和 访问 时 间 的 
存储 设备 组 成 的 层次 结构 。 我 们 讲述 不 同类 型 的 随机 存 取 存 储 器 (RAM) 和 只 读 和 存储 角 
(ROM)， 以 及 磁盘 和 固态 硬盘 〈 译 者 注 : 直译 应 为 固态 驱动 器 ， 但 固态 硬盘 一 词 已 经 锌 大 
家 接受 ， 所 以 延 用 ) 的 几何 形状 和 组 织 构造 。 我 们 描述 这 些 存储 设备 是 如 何 放置 在 层次 结 
构 中 的 ， 讲 述 访问 局 部 性 是 如 何 使 这 种 层次 结构 成 为 可 能 的 。 我 们 通过 一 个 独特 的 观 氮 使 
这 些 理论 具体 化 、 形 象 化 ， 那 就 是 将 存储 器 系统 视 为 一 个 “存储 器 山 ”， 山 月 是 时 间 局 部 
性 ， 而 斜坡 是 空间 局 部 性 。 最 后 ， 我 们 向 读者 阐述 如 何 通过 改善 程序 的 时 间 局 部 性 和 空间 
局 部 性 来 提高 应 用 程序 的 性 能 。 
"第 7 章 : 链接 。 本 章 讲述 静态 和 动态 链接 ， 包括 的 概念 有 可 重 定位 的 《relocatable》 和 可 执 
行 的 目标 文件 、 符 号 解析 、 重 定位 (relocation)、 静 态 库 、 共 享 目标 库 ， 以 及 与 位 置 无 关 
的 代码 。 大 多 数 讲述 系统 的 书 中 都 不 讲 链接 ， 我 们 要 讲述 它 是 出 于 以 下 原因 。 第 一 ， 程 序 
员 遇 到 的 最 令 人 迷惑 的 问题 中 ， 有 一 些 是 和 链接 时 的 小 故障 有 关 的 ， 尤 其 是 对 那些 大 型 软 
件 包 来 说 。 第 二 ， 链 接 器 生成 的 目标 文件 是 与 一 些 像 加 载 、 虚 拟 存储 器 和 存储 器 映射 这 样 
的 概念 相关 的 。 
“第 8 章 : 异常 控制 流 。 在 本 书 的 这 个 部 分 ， 我 们 通过 介绍 异常 控制 流 《〈 比 如 ， 除 了 正常 分 文 
和 过 程 调用 以 外 的 控制 流 的 变化 ) 的 一 般 概 念 ， 打 破 单一 程序 的 模型 。 我 们 给 出 存在 于 系统 
所 有 层次 的 异常 控制 流 的 例子 ， 从 底层 的 硬件 异常 和 中 断 ， 到 并 发 进程 的 上 下 文 切 换 ， 到 由 
于 Unix 信号 传送 引起 的 控制 流 突变 ， 到 C 语言 中 破坏 栈 原 则 的 非 本 地 跳 转 (nonlocal jump )。 
在 这 一 章 ， 我 们 介绍 进程 的 基本 概念 ， 进 程 是 对 一 个 正在 执行 的 程序 的 一 种 抽象 。 读 者 会 学 
习 到 进程 是 如 何 工 作 的 ， 以 及 如 何在 应 用 程序 中 创建 和 操纵 进程 。 我 们 会 展示 应 用 程序 员 如 何 通 
过 Unix 系统 调用 来 使 用 多 个 进程 。 学 完 本 章 之 后 ， 读 者 就 能 够 编写 带 作 业 控 制 的 Unix 外 达 了 。 
同时 ， 这 里 也 会 加 读者 初步 展示 程序 的 并 发 执行 会 引起 不 确定 的 行为 和 后 果 。 
“第 9 章 : 虚拟 看 储 器 。 我 们 讲述 虚拟 存储 器 系统 是 希望 读者 对 它 是 如 何 工 作 的 以 及 它 的 特 
性 有 所 了 解 。 我 们 想 让 读者 了 解 为 什么 不 同 的 并 发 进程 各 目 都 有 一 个 完全 相同 的 地 址 范 
围 ， 能 共享 某 些 页 ， 而 又 独占 另外 一 些 页 。 我 们 还 覆盖 讲 了 一 些 管理 和 操纵 虚拟 存储 器 的 
问题 。 特 别 地 ， 我 们 讨论 了 存储 分 配 操 作 ， 就 像 Unix 的 malloc 和 free 操作 。 阐 述 这 
些 内 容 是 出 于 下 面 几 个 目的 。 它 加 强 了 这 样 一 个 概念 ， 那 就 是 虚拟 存储 器 空间 只 是 一 个 字 
节 数 组 ， 程 序 可 以 把 它 划 分 成 不 同 的 存储 单元 。 它 帮助 读者 理解 包含 像 存储 泄漏 和 非法 指 


针 引 用 这 样 的 存储 器 引用 错误 的 程序 的 后 果 。 最 后 ， 许 多 应 用 程序 员 编写 自己 的 优化 了 的 
存储 分 配 操作 来 满足 应 用 程序 的 需要 和 特性 。 这 一 章 比 其 他 任何 一 章 都 更 能 展现 将 计算 机 
系统 中 的 硬件 和 软件 结合 起 来 阐述 的 优点 。 而 传统 的 计算 机 体系 结构 和 操作 系统 书籍 都 只 
讲述 虚拟 存储 器 的 某 一 方面 。 

。 第 10 章 : 系统 级 IJO。 我 们 讲述 Unix LO 的 基本 概念 ， 例 如 文件 和 描述 符 。 我 们 描述 如 何 
共享 文件 ，LO 重 定 向 是 如 何 工 作 的 ， 还 有 如 何 访 问 文件 的 元 数据 。 我 们 还 开发 了 一 个 健 
壮 的 带 缓冲 区 的 VO 包 ， 可 以 正确 处 理 一 种 称 为 short counts 的 奇特 行为 ， 也 就 是 库 函 数 
只 读 取 一 部 分 的 输入 数据 。 我 们 阐述 C 的 标准 IO 库 ， 以 及 它 与 Unix IO 的 关系 ， 重 点 谈 
到 标准 IO 的 局 限 性 ， 这 些 局 限 性 使 之 不 适合 网 络 编 程 。 总 的 说 来 ， 本 章 的 论题 是 后 面 两 
章 一 一 网 络 和 并 发 编程 的 基础 。 

“第 11 章 : 网 络 编程 。 对 编程 而 言 ， 网 络 是 非常 有 趣 的 IO 设备 ， 将 许多 我 们 前 面 文中 学 习 
的 概念 ， 比 如 进程 、 信 和 号、 字 节 顺序 (byte order)、 存 储 器 映射 和 动态 存储 器 分 配 ， 联 系 
在 一 起 。 网 络 程序 还 为 下 一 章 的 主题 一 一 并 发 ， 提 供 了 一 个 很 令 人 信服 的 上 下 文 。 本 章 只 
是 网 络 编程 的 一 个 很 小 的 部 分 ， 使 读者 能 够 编写 一 个 Web 服务 器 。 我 们 还 讲述 了 位 于 所 有 
网 络 程序 底层 的 客户 端 一 服务 器 模型 。 我 们 展现 了 一 个 程序 员 对 Internet 的 观点 ， 并 且 教 
读者 如 何 用 套 接 字 〈socket) 接口 来 编写 Intemet 客户 端 和 服务 器 。 最 后 ， 我 们 介绍 超 文本 
传输 协议 HTTP， 并 开发 了 一 个 简单 的 迄 代 式 (iterative) Web 服务 器 。 

“第 12 章 :并 发 编程 。 这 一 章 以 Internet 服务 器 设计 为 例 介 绍 了 并 发 编程 。 我 们 比较 对 照 了 
三 种 编写 并 发 程序 的 基本 机 制 (进程 、L/O 多 路 复 用 技术 和 线程 )， 并 且 展 示 如 何 用 它们 来 
建造 并 发 Internet 服务 器 。 我 们 探讨 了 用 P、7 信和 号 操作 来 实现 同步 、 线 程 安 全 和 可 重 人 
(reentrancy)、 竞 争 条 件 以 及 死 锁 等 的 基本 原则 。 对 大 多 数 服务 器 应 用 来 说 ， 写 并 发 代码 都 
是 很 关键 的 。 我 们 还 讲述 了 线程 级 编程 的 使 用 方法 ， 来 解释 应 用 程序 中 的 并 行 性 ， 使 得 程 
序 在 多 核 的 处 理 器 上 能 执行 得 更 快 。 使 所 有 的 核 来 解决 同一 个 计算 问题 需要 很 小 心 谨慎 地 
协调 并 发 的 线程 ， 既 要 保证 正确 性 ， 又 要 争取 获得 高 性 能 。 


本 版 新 增 内 容 


本 书 的 第 1 版 于 2003 年 出 版 。 考 虑 到 计算 机 技术 发 展 如 此 迅速 ， 这 本 书 的 内 容 还 算是 保持 
得 很 好 。 事 实证 明 Intel x86 的 机 器 上 运行 类 Unix 操作 系统 ， 加 上 采用 C 语言 编程 ， 是 一 种 能 够 
涵盖 当今 许多 系统 的 组 合 。 硬 件 技 术 和 编译 器 的 变化 ， 以 及 很 多 教师 教授 这 些 内 容 的 经 验 ， 都 促 
使 我 们 做 了 大 量 的 修改 。 

下 面 列 出 的 是 一 些 更 加 详细 的 改进 ， : 

。 第 2 章 : 信 息 的 表示 和 处 理 。 通 过 更 加 详细 地 解释 概念 以 及 更 多 的 练习 题 和 家 庭 作 业 ， 我 

们 试图 使 这 部 分 内 容 更 加 易 慌 。 我 们 将 一 些 比较 偏 理 论 的 内 容 放 到 了 网 络 旁 注 里 。 还 讲述 
了 一 些 由 于 计算 机 算术 运算 的 滋 出 造成 的 安全 漏洞 。 

。 第 3 章 : 程序 的 机 器 级 表示 。 我 们 将 内 容 的 覆盖 范围 扩展 到 了 包括 x86-64， 也 就 是 将 x86 
处 理 器 扩展 到 了 64 位 字 长 。 也 使 用 了 更 新 版 本 的 GCC 产生 的 代码 。 另 外 还 增强 了 对 缓冲 
区 滋 出 漏洞 的 描述 。 在 网 络 旁 注 里 ， 我 们 给 出 了 两 类 不 同 的 浮 点 指令 ， 还 介绍 了 当 编 译 器 
试图 做 更 高 等 级 优化 的 时 候 ， 做 的 一 些 奇 特 的 变换 。 另 外 ， 还 有 一 个 网 络 旁 注 描 述 了 如 何 
在 一 个 C 语言 程序 中 内 和 人 x86 汇编 代码 。 

。 第 4 章 : 处 理 器 体系 结构 。 更 加 详细 地 说 明了 我 们 的 处 理 器 设计 中 的 异常 发 现 和 处 理 。 在 
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网 络 旁 注 里 ， 我 们 也 给 出 了 处 理 器 设计 的 Verilog 描述 映射 ， 使 得 我 们 的 设计 能 够 合成 到 
可 运行 的 硬件 上 。 

。 第 5 章 ; 优化 程序 性 能 。 我 们 极 大 地 改变 了 对 乱 序 处 理 器 如 何 运 行 的 描述 ， 还 提出 了 一 种 
简单 的 技术 ， 能 够 基于 程序 的 数据 流 图 表示 中 的 路 径 来 分 析 程 序 的 性 能 。 在 网 络 旁 注 里 ， 
描述 了 C 语言 程序 员 如 何 能 够 利用 较 新 的 x86 处 理 器 中 提供 的 SIMD ( 单 指令 流 ， 多 数据 
流 ) 指令 来 编程 。 : 

“第 6 章 : 存储 器 层次 结构 。 我 们 增加 了 固态 硬盘 的 内 容 ， 还 更 新 了 我 们 的 表述 ， 使 之 基于 
Intel Core i7 处 理 器 的 存储 器 层次 结构 。 

“第 7 章 ; 链接 。 本 章 的 变化 不 大 。 

“第 8 章 ; 异常 控制 流 。 我 们 改进 了 对 于 进程 模型 如 何 引 入 一 些 基本 的 并 发 概念 的 讨论 ， 例 
如 非 确定 性 。 

。 第 9 章 ; 虚拟 存储 器 。 我 们 更 新 了 存储 器 系统 案例 研究 ， 采 用 了 64 位 Intel Core i7 处 理 右 
为 例 来 讲述 。 我 们 还 更 新 了 malloc 函数 的 示例 实现 ,使 之 既 能 在 32 位 也 能 在 64 位 环境 
中 执行 。 

。 第 10 章 : 系统 级 IJO。 本 章 的 变化 不 大 。 

。 第 11 章 : 网 络 编程 。 本 章 的 变化 不 大 。 

。 第 12 章 : 并 发 编程 。 我 们 增加 了 关于 并 发 性 一 般 原则 的 内 容 ， 还 讲述 了 程序 员 如 何 利用 
线程 级 并 行 性 使 得 程序 在 多 核 机 器 上 能 运行 得 更 快 。 

此 外 ， 我 们 还 增加 和 修改 了 很 多 练习 题 和 家 庭 作 业 。 


本 书 的 起 源 


本 书 起 源 于 1998 年 秋季 ， 我 们 在 卡 内 基 一 梅 隆 (CMU) 大 学 开设 的 一 门 编号 为 15-213 的 
介绍 性 课程 : 计算 机 系统 导论 (Introduction to Computer Systems，ICS) [14]。 从 那 以 后 ， 每 学 
期 都 开设 了 ICS 这 门 课程 ， 每 期 有 150 ~ 250 名 学 生 ， 从 本 科 二 年 级 到 硕士 研究 生 都 有 ， 所 学 
专业 也 很 广泛 。 这 门 课程 是 卡 内 基 一 梅 隆 大 学 计算 机 科学 系 (CS) 以 及 电子 和 计算 机 工程 系 
(ECE) 所 有 本 科 生 的 必修 课 ， 也 是 大 多 数 高 级 系统 课程 的 先行 必修 课 。 

ICS 这 门 课程 的 宗旨 是 用 一 种 不 同 的 方式 向 学 生 介绍 计算 机 。 因 为 ， 我 们 的 学 生 中 几乎 没有 
人 有 机 会 亲自 去 构造 一 个 计算 机 系统 。 另 一 方面 ， 大 多 数学 生 ， 甚 至 包括 所 有 的 计算 机 科学 家 和 
计算 机 工程 师 ， 也 需要 日 常 使 用 计算 机 和 编写 计算 机 程序 。 所 以 我 们 决定 从 程序 员 的 角度 来 讲解 
系统 ， 并 采用 这 样 的 原则 来 过 滤 要 讲述 的 内 容 : 我 们 只 讨论 那些 影响 用 户 级 C 语言 程序 的 性 能 、 
正确 性 或 实用 性 的 主题 。 

比如 ， 我 们 排除 了 诸如 硬件 加 法 器 和 总 线 设 计 这 样 的 主题 。 虽 然 我 们 谈 及 了 机 器 语言 ， 但 是 
重点 并 不 在 于 如 何 手工 编写 汇编 语言 ， 而 是 关注 C 语言 编译 器 是 如 何 将 C 语言 的 结构 翻译 成 机 
器 代码 的 ， 包 括 编译 器 是 如 何 翻 译 指 针 、 和 循环、 过 程 调 用 以 及 开关 (switch) 语句 的 。 更 进一步 
地 ， 我 们 将 更 广泛 和 全 盘 地 看 待 系统， 包括 硬件 和 系统 软件 ， 涵 盖 了 包括 链接 、 加 载 、 进 程 、 信 
号 、 性 能 优化 、 虚 拟 存储 器 、LIO 以 及 网 络 与 并 发 编程 等 在 内 的 主题 。 

这 种 做 法 使 得 我 们 讲授 ICS 课程 的 方式 对 学 生来 讲 既 实用 、 具 体 ， 还 能 动手 操作 ， 同 时 也 非常 
能 调动 学 生 的 积极 性 。 很 快 地 ， 我 们 收 到 来 目 学 生 和 教 职 工 非 常 热烈 而 积极 的 反 啊 ， 我 们 意识 到 卡 
内 基 一 梅 隆 大 学 以 外 的 其 他 人 也 可 以 从 我 们 的 方法 中 获 益 。 因 此 ， 这 本 书 从 ICS 课程 的 笔记 中 应 运 
而 生 了 ， 而 现在 我 们 对 它 做 了 修改 ， 使 之 能 够 反映 科学 技术 以 及 计算 机 系统 实现 中 的 变化 和 进步 。 
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写 给 指导 教师 们 : 可 以 基于 本 书 的 课程 


指导 教师 可 以 使 用 本 书 来 讲授 五 种 不 同类 型 的 系统 课程 ( 见 图 2)。 具 体 每 门 课程 则 有 赖 于 
课程 大 纲 的 要 求 、 个 人 品位 、 学 生 的 背景 和 能 力 。 图 中 的 课程 从 左 往 右 越 来 越 强调 以 程序 员 的 角 
度 来 看 待 系统 。 以 下 是 简单 的 描述 : : 

.ORG : 一 门 以 非 传统 风格 讲述 传统 主题 的 计算 机 组 成 原理 课程 。 传 统 的 主题 包括 逻辑 设 

计 、 处 理 器 体系 结构 、 汇 编 语言 和 存储 器 系统 ， 然 而 更 多 地 强调 对 程序 员 的 影响 。 例 如 ， 

要 反 过 来 考虑 数据 表示 对 C 语言 程序 的 数据 类 型 和 操作 的 影响 。 又 例如 ， 使 用 的 汇编 代码 

表示 是 基于 C 语言 编译 器 产生 机 器 代码 的 ， 而 不 是 手工 编写 的 。 

“ORG+ : 一 门 特别 强调 硬件 对 应 用 程序 性 能 影响 的 ORG 课程 。 和 ORG 课程 相 比 ， 学 生 要 

更 多 地 学 习 代码 优化 和 改进 他 们 的 C 语言 程序 的 存储 器 性 能 。 

“ICS : 基本 的 ICS 课程 ， 旨 在 培养 一 类 程序 员 ， 他 们 能 够 理解 硬件 、 操 作 系统 和 编译 系统 

对 应 用 程序 的 性 能 和 正确 性 的 影响 ， 和 ORG+ 课程 的 一 个 显著 不 同 是 ， 本 课程 不 论 及 低层 

次 的 处 理 器 体系 结构 。 相 反 地 ， 程 序 员 只 同 现代 乱 序 处 理 器 的 高 级 模型 打交道 。ICS 课程 

非常 适合 安排 到 一 个 10 周 的 小 学 期 ， 如 果 期 望 步调 更 从 容 一 些 ， 也 可 以 延长 到 一 个 15 周 

的 学 期 。 : 

“ICS+ : 在 基本 的 ICS 课程 基础 上 ， 额 外 论述 一 些 系统 编程 的 问题 ， 比 如 系统 级 LO、 网络 

编程 和 并 发 编程 。 这 是 卡 内 基 一 梅 隆 大 学 的 一 门 一 个 学 期 长 度 的 课程 ， 会 讲述 本 书 中 除了 

低级 处 理 器 体系 结构 以 外 的 所 有 章节 。 

* SP : 一 门 系统 编程 课程 。 -0 但 是 别 除 了 浮 点 和 性 能 优化 的 内 容 更 加 强 

调 系 统 编程 ， 包 括 进程 控制 、 动 态 链接 、 系 统 级 WO、 网 络 编程 和 并 发 编程 。 指 导 教 师 可 

能 会 想 从 其 他 渠道 对 某 些 高 级 论题 做 些 补 充 ， 比 如 守护 进程 (daemon)、 终 端 控 制 和 Unix 

IPC (进程 间 通 信 )。 
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图 2 五 类 基于 本 书 的 课程 
注 : (a) 只 有 硬件 ; (b) 无 动态 存储 分 配 ; (Cc) 无 动态 链接 ; (d) 无 浮 点 数 ; ICS+ 是 卡 内 基 一 梅 隆 的 15-213 
课程 。 
图 2 要 表达 的 主要 信息 是 本 书 给 了 学 生 和 指导 教师 多 种 选择 。 如 果 你 希望 学 生 更 多 地 了 解 
低层 次 的 处 理 器 体系 结构 ， 那 么 通过 ORG 和 ORG+ 课程 可 以 达到 目的 。 另 一 方面 ， 如 果 你 想 将 
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当前 的 计算 机 组 成 原理 课程 转换 成 ICS 或 者 ICS+ 课程 ， 但 是 又 担心 突然 做 这 样 剧烈 的 变化 ， 那 
么 你 可 以 逐步 递增 转向 ICS 课程 。 你 可 以 从 ORG 课程 开始 ， 它 以 一 种 非 传统 的 方式 教授 传统 的 
问题 。 一 旦 你 对 这 些 内 容 感到 驾轻就熟 了 ， 就 可 以 转 到 ORG+， 最 终 转 到 ICS。 如 果 学 生 没 有 C 
语言 的 经 验 〈 比 如 他 们 只 用 Java 编写 过 程序 )， 你 可 以 花 几 周 的 时 间 在 C 语言 上 ， 然 后 再 讲述 
ORG 或 者 ICS 课程 的 内 容 。 

最 后 ， 我 们 认为 ORG+ 和 SP 课程 适合 安排 为 两 学 期 (两 个 小 学 期 或 者 两 个 学 期 )。 或 者 你 
可 以 考虑 按照 一 学 期 ICS 和 一 学 期 SP 的 方式 来 教授 ICS+ 课程 。 


经 过 课堂 验证 的 实验 练习 

ICS+ 课程 在 卡 内 基 一 梅 隆 大 学 得 到 了 学 生 们 很 高 的 评价 。 学 生 对 这 门 课程 的 评价 ， 中 值 分 数 一 
般 为 5.0/50， 平 均 分 数 一 般 为 4.6/5.0。 学 生 们 说 这 门 课 非 常 有 趣 ， 令 人 兴奋 ， 主 要 就 是 因为 相关 的 
实验 练习 。 这 些 实验 练习 可 以 从 CS : APP 的 主页 上 获得 。 下 面 是 本 书 提供 的 一 些 实验 的 示例 。 

* 数据 实验 。 这 个 实验 要 求学 生 实现 简单 的 逻辑 和 算术 运算 函数 ， 但 是 只 能 使 用 一 个 非常 有 
限 的 C 语言 子 集 。 比 如 ， 他 们 只 能 用 位 级 操作 来 计算 一 个 数字 的 绝对 值 。 这 个 实验 帮助 学 
生 们 了 解 C 语言 数据 类 型 的 位 级 表示 ， 以 及 数据 操作 的 位 级 行为 。 

.二进制 炸弹 实验 。 二 进 制 炸弹 是 一 个 作为 目标 代码 文件 提供 给 学 生 们 的 程序 。 运 行 时 ， 它 
提示 用 户 输 入 6 个 不 同 的 字符 串 。 如 果 其 中 的 任何 一 个 不 正确 ， 炸 弹 就 会 “爆炸 >， 打 印 
出 一 条 错误 信息 ， 并 且 在 一 个 分 级 〈grading) 服务 器 上 记录 事件 日 志 。 学 生 们 必须 通过 对 
程序 反 汇 编 和 逆向 工程 来 测定 应 该 是 镭 6 个 串 ， 从 而 解除 他 们 各 自 炸弹 的 雷管 。 该 实验 教 
会 学 生理 解 汇编 语言 ， 并 且 强 制 他 们 学 习 怎 样 使 用 调试 器 。 

.缓冲 区 溢出 实验 。 它 要 求学 生 们 通过 利用 一 个 缓冲 区 溢出 漏洞 ， 来 修改 一 个 二 进 制 可 执行 
文件 的 运行 时 行为 。 这 个 实验 教会 学 生 们 栈 的 原理 ， 并 让 他 们 了 解 到 写 那 种 易于 遭受 缓冲 
区 溢出 攻击 的 代码 的 危险 性 。 | 

“体系 结构 实验 。 第 4 章 的 几 个 家 庭 作业 问题 能 够 组 合成 一 个 实验 作业 。 在 实验 中 ， 学 生 们 
修改 处 理 器 的 HCL 描述 ， 增 加 新 的 指令 、 修 改 分 支 预测 策 略 ， 或 者 增加 或 删除 旁 路 路 径 
和 寄存 器 端口 。 修 改 后 的 处 理 器 能 够 被 模拟 ， 并 通过 运行 自动 化 测试 检测 出 大 多 数 可 能 的 
错误 。 这 个 实验 使 学 生 们 能 体验 到 处 理 器 设计 中 令 人 激动 的 部 分 ， 而 不 需要 掌握 逻辑 设计 
和 硬件 描述 语言 的 完整 的 知识 。 

. 性 能 实验 。 学 生 们 必须 优化 应 用 程序 的 核心 函数 〈 比 如 卷 积 积分 或 矩阵 转 置 ) 的 性 能 。 这 
个 实验 非常 清晰 地 表明 了 高 速 缓 存 的 特性 ， 并 带 给 学 生 们 低级 程序 优化 的 经 验 。 

“外 过 实验。 学 生 们 实现 他 们 自己 的 带 有 作业 控制 的 Unix 外 过 程序， 包括 ctr1-c 和 
ctrl-z 按键 、fg、bg 和 jobs 命令 。 这 是 学 生 们 第 一 次 接触 并 发 ， 并 且 让 他 们 对 Unix 
的 进程 控制 、 信 号 和 信号 处 理 有 清晰 的 了 解 。 

。malloc 实验 。 学 生 们 实现 他 们 自己 的 malloc、free 和 realloc (可 选 的 ) 版 本 。 这 
个 实验 让 学 生 们 清晰 地 理解 数据 的 布局 和 组 织 ， 并 且 要 求 他 们 评估 时 间 和 空间 效率 的 各 种 
权衡 和 折 中 。 

. 代理 实验 。 学 生 们 实现 一 个 位 于 浏览 器 和 万 维 网 其 他 部 分 之 间 的 并 行 Web 代理 。 这 个 实 
验 向 学 生 们 揭示 了 Web 客户 端 和 服务 器 这 样 的 主题 ， 并 且 把 课程 中 的 许多 概念 联系 起 来 ， 
比如 字 节 排序 、 文 件 WO、 进 程控 制 、 信 号 、 信 号 处 理 、 存 储 器 映射 、 套 接 字 和 并 发 。 学 
生 们 很 高 兴 能 够 看 到 他 们 的 程序 在 真实 的 Web 浏览 器 和 Web 服务 器 之 间 起 到 作用 。 
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第 2 版 的 致谢 


我 们 深 深 地 感谢 那些 帮助 我 们 写 出 CS: APP 第 2 版 的 人 们 。 

首先 ， 我 们 要 感谢 在 卡 内 基 -- 梅 隆 大 学 教授 ICS 课程 的 同事 们 ， 感 谢 你 们 见解 深刻 的 反馈 意 
邦和 鼓励 :GuyBleloch、Roger Dannenberg、David Eckhardt、Greg Ganger、Seth Goldstein、Greg 
Kesden、 Bruce Maggs、Todd Mowry、Andreas Nowatzyk、Frank Pfenning 和 Markus Pueschel。 

还 要 感谢 报告 第 1 版 勘误 的 目光 敏锐 的 读者 们 : Daniel Amelang、Rui Baptista、Quarup 
Barreirinhas、Michael Bombyk、J6rg Brauer、Jordan Brough、Yixin Cao、 James Caroll、 Rui 
Carvalho、 Hyoung-Kee Chol、Al Davis、Grant Davis、Christian Dufour、Mao Fan、Tim Freeman、 
Inge Frick、 Max Gebhardt、Jeff Goldblat、Thomas Gross、Anita Gupta、John Hampton、Hiep 
Hong、 Greg Israelsen、 Ronald Jones、 Haudy Kazemi、Brian Kell、Constantine Kousoulis、Sacha 
Krakowiak、 Arun Krishnaswamy、 Martin Kulas、 Michael Li、 Zeyang Li、 Ricky Liu、 Mario Lo 
Conte、 Dirk Maas、Devon Macey、Carl Marcinik、Will Marrero、Simone Martins、Tao Men、 
Mark Morrissey、 Venkata Naidu、 Bhas Nalabothula、Thomas Niemann、Eric Peskin、David 
Po、Anne Rogers、John Ross、Michael Scott、Seiki、 Ray Shih、 Darren Shultz、Erik Silkensen、 
Suryanto、Emil Tarazi、Nawanan Theera-Ampornpunt、Joe Trdinich、Michael Trigoboff、James 
Troup、Martin Vopatek、Alan West、Betsy Wolft、Tim Wong、 JamesWoodruff、 Scott Wright.、 
Jackie Xiao、Guanbeng Xu、Qing Xu、Caren Yang、Yin Yongsheng、Wang Yuanxuan、 Steven 
Zhang 和 Day Zhong。 特 别 感谢 Inge Frick， 他 发 现 了 我 们 加 锁 找 贝 (lock-and-copy) 例子 中 一 个 
极 不 明显 但 很 深刻 的 错误 ， 还 要 特别 感谢 Ricky Liu， 他 校对 的 技术 真 的 很 棒 。 

”我 们 Intel 实验 室 的 同事 Andrew Chien 和 Limor Fix 在 本 书 的 写作 过 程 中 一 直 非常 支持 。 非 
常 感谢 Steve Schlosser 提供 了 一 些 关 于 磁盘 驱动 器 的 总 结 描述 ，Casey Helfrich 和 Michael Ryan 
安装 并 维护 了 新 的 Core i7 机 器 。Michael Kozuch、Babu Pillai 和 Jason Campbell 对 存储 器 系统 性 
能 、 多 核 系统 和 能 量 墙 问题 提出 了 很 有 价值 的 见解 。Phil Gibbons 和 Shimin Chen 跟 我 们 分 孚 了 
大 量 关于 固态 硬盘 设计 的 专业 知识 。 

我 们 还 有 机 会 邀请 了 Wen-Mei Hwu、Markus Pueschel 和 Jiri Simsa 这 样 的 高 人 给 予 了 一 些 针 
对 具体 问题 的 意见 和 高 层次 的 建议 。James Hoe 帮助 我 们 写 了 Y86 处 理 器 的 Verilog 描述 ， 还 完 
成 了 所 有 将 设计 合成 到 可 运行 的 硬件 上 的 工作 。 

非常 感谢 审阅 本 书 草稿 的 同事 们 : James Archibald ( 百 翰 杨 大 学 ，Brigham Young University)、 
Richard Carver ( 乔治 梅森 大 学 ，George Mason University)、Mirela Damian ( 维 拉 诺 瓦 大 学 ，Villanova 
University)、Peter Dinda ( 西北 大 学 )、John Fiore ( 坦 普 尔 大 学 ，Temple University)、Jason Fritts ( 至 
路 易 斯 大 学 ，St.Louis University)、John Greiner ( 莱 斯 大 学 )、Brian Harvey ( 加州 大 学 伯克利 分 
校 )、Don Heller ( 宾 夕 法 利 亚 州 立 大 学 )、Wei Chung Hsu ( 明尼苏达 大 学 )、Michelle Hugue ( 马 
里 兰 大 学 )、Jeremy Johnson ( 德 雷 克 塞 尔 大 学 , Drexel University)、Geoff Kuenning ( 哈 维 马 德 学 院 ， 
Harvey Mudd College)、Ricky Liu、Sam Madden ( 接 省 理工 学 院 )、 Fred Martin ( 马萨诸塞 大 学 洛 
厄 尔 分 校 , University of Massachusetts, Lowell)、Abraham Matta ( 波士顿 大 学 )、Markus Pueschel ( 卡 
内 基 一 梅 隆 大 学 )、Norman Ramsey ( 塔 夫 敬 大 学 ，Tufts University)、Glenn Reinmann ( 加 州 大 学 
洛杉矶 分 校 )、Michela Taufer ( 特 拉 华 大 学 ，University of Delaware) 和 Craig Zilles (伊利诺伊 大 
学 香槟 分 校 )。 

Windfall 软件 公司 的 Paul Anagnostopoulos 出 色 地 完成 了 本 书 的 排版 ， 并 领导 了 制作 团队 。 
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非常 感谢 Paul 和 他 超 棒 的 团队 : Rick Camp ( 文字 编辑 )、Joe Snowden (排版 )、MaryEllen N.Oliver 
( 校对 )、Laurel Muller ( 美术 ) 和 Ted Laux ( 索引 制作 )。 

最 后 ， 我 们 要 感谢 Prentice Hall 出 版 社 的 朋友 们 。Marcia Horton 总 是 支持 着 我 们 。 我 们 的 编辑 
Matt Goldstein 由 始 至 终 表 现 出 了 一 流 的 领导 才能 。 我 们 由 袁 地 感谢 他 们 的 帮助 、 鼓 励 和 真知 灼 见 。 


第 1 版 的 致谢 

我 们 圳 心地 感谢 那些 给 了 我 们 中 肯 批 评 和 鼓励 的 众多 朋友 及 同事 。 特 别 感谢 我 们 15-213 课 
程 的 学 生 们 ， 他 们 充满 感染 力 的 精力 和 热情 鞭策 我 们 前 行 。Nick Carter 和 Vinny Furia 无 私 地 提 
供 了 他 们 的 malloc 程序 包 。 

Guy Blelloch、Greg Kesden、Bruce Maggs 和 Todd Mowry 在 多 个 学 期 中 教授 此 课 ， 给 我 们 喜 
励 并 帮助 改进 课程 内 容 。Herb Derby 提供 了 早期 的 精神 指导 和 鼓励 。Allan Fisher、Garth Gibson、 
Thomas Gross、Satya、Peter Steenkiste 和 Hui Zhang 从 一 开始 就 鼓励 我 们 开设 这 门 课 程 。Garth 
早期 给 的 建议 促使 本 书 的 工作 得 以 开展 ， 并 且 在 Allan Fisher 领导 的 小 组 的 帮助 下 又 细 化 和 修订 
了 本 书 的 工作 。Mark Stehlik 和 Peter Lee 提供 了 极 大 的 支持 ， 使 得 这 些 内 容 成 为 本 科 生 课程 的 一 
部 分 。Greg Kesden 针对 ICS 在 操作 系统 课程 上 的 影响 提供 了 有 益 的 反馈 意见 。Greg Ganger 和 
Jiri Schindler 提供 了 一 些 磁盘 驱动 的 描述 说 明 ， 并 回答 了 我 们 关于 现代 磁盘 的 疑问 。Tom Striker 
向 我 们 展示 了 存储 器 山 的 比喻 。James Hoe 在 处 理 器 体系 结构 方面 提出 了 很 多 有 用 的 建议 和 反馈 。 

有 一 群 特殊 的 学 生 极 大 地 帮助 我 们 发 展 了 这 门 课程 的 内 容 ， 他 们 是 Khalil Amiri、Angela 
Demke Brown、 Chris Colohan、 Jason Crawford、 Peter Dinda、 Julio Lopez、Bruce Lowekamp、 
Jeff Pierce、 Sanjay Rao、Balajl Sarpeshkar、Blake Scholl、Sanjit Seshia、Greg Steffan、Tiankai 
Tu、Kip Walker 和 Yinglian Xie。 尤 其 是 Chris Colohan 建立 了 愉悦 的 氛围 并 持续 到 今天 ， 还 发 明 
了 传奇 般 的 “二 进 制 炸弹 ” 这 是 一 个 对 教授 机 器 语言 代码 和 调试 概念 非常 有 用 的 工具 。 

Chris Bauer、Alan Cox、Peter Dinda、Sandhya Dwarkadis、John Greiner、Bruce Jacob、Barry 
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第 1 章 


Computer Systems : A Programmer’ s Perspective, 2E 


计算 机 系统 漫游 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它 们 共同 工作 来 运行 应 用 程序 。 虽 然 系统 的 具体 实 
现 方式 随 着 时 间 不 断 变化 ， 但 是 系统 内 在 的 概念 却 没 有 改变 。 所 有 计算 机 系统 都 有 相似 的 硬件 和 
软件 组 件 ， 它 们 执行 着 相似 的 功能 。 一 些 程 序 员 希 望 深入 了 解 这 些 组 件 是 如 何 工作 的 ， 以 及 这 些 
组 件 是 如 何 影响 程序 的 正确 性 和 性 能 的 ， 以 此 来 提高 自身 的 技能 。 本 书 便 是 为 这 些 读者 而 写 的 。 

现在 就 要 开始 一 次 有 趣 的 漫游 历程 了 。 如 果 你 全 力 投身 学 习 本 书 中 的 概念 ， 完 全 理解 底层 计 
算 机 系统 以 及 它 对 应 用 程序 的 影响 ， 那 么 你 将 会 逐渐 成 为 凤 毛 有 鹿角 的 “权威 ”程序 员 。 

你 将 会 学 习 一 些 实践 技巧 ， 比 如 如 何 避 免 由 计算 机 表示 数字 的 方式 导致 的 奇怪 的 数字 错误 。 
你 将 学 会 怎样 通过 一 些 聪明 的 小 窍门 来 优化 你 的 C 代码 ， 以 充分 利用 现代 处 理 器 和 存储 器 系统 
的 设计 。 你 将 了 解 到 编译 器 是 如 何 实现 过 程 调用 的 ， 以 及 如 何 利 用 这 些 知识 避免 缓冲 区 溢出 错误 
带 来 的 安全 漏洞 ， 这 些 弱 点 会 给 网 络 和 因特网 软件 带 来 了 巨大 的 麻烦 。 你 将 学 会 如 何 识 别 和 避免 
链接 时 那些 邻 人 讨厌 的 错误 ， 它 们 困扰 着 普通 的 程序 员 。 你 将 学 会 如 何 编写 自己 的 Unix 外 壳 、 
自己 的 动态 存储 分 配 包 ， 甚 至 是 自己 的 Web 服务 器 。 你 会 认识 到 并 发 带 来 的 希望 和 陷阱 ， 当 音 
个 心 片上 集成 了 多 个 处 理 器 核 时 ， 这 个 主题 变 得 越 来 越 重 要 。 “ 

在 关于 C 编程 语言 的 经 典 文献 [58] 中 ，Kernighan 和 Ritchie 通过 图 1-1 所 示 的 hello 程序 
来 向 读者 介绍 C 语言 。 尽 管 hello 程序 非常 简单 ， 但 是 为 了 让 它 完 成 运行 ， 系 统 的 每 个 主要 组 
成 部 分 都 需要 协调 工作 。 从 某 种 意义 上 来 说 ， 本 书 的 目的 就 是 要 帮助 你 了 解 当 你 在 系统 上 执行 
hello 程序 时 ， 系 统 发 生 了 什么 以 及 为 什么 会 这 样 。 


code/intro/hello.c 
#include <stdio.h> 


int main() 


{ 


QO NN 


printf ("hello, world\n'"); 
4 


code/intro/hello.c 
图 1-1 hello 程序 


我 们 通过 跟踪 hello 程序 的 生命 周期 来 开始 对 系统 的 学 习 一 一 从 它 被 程序 员 创建 ， 到 在 系 
统 上 运行 ， 输 出 简单 的 消息 ， 然 后 终止 。 我 们 将 沿 着 这 个 程序 的 生命 周期 ， 简 要 地 介绍 一 些 逐 步 
出 现 的 关键 概念 、 专 业 术 语 和 组 成 部 分 。 后 面 的 章节 将 围绕 这 些 内 容 展开 。 


1 .1 信息 就 是 位 + 上 下 文 


hello 程序 的 生命 周期 是 从 一 个 源 程序 〈 或 者 说 源 文 件 ) 开始 的 ， 即 程序 员 利用 编辑 器 创 
建 并 保存 的 文本 文件 ， en de ys 
序列 ，8 个 位 被 组 织 成 一 组 ， 称 为 字 节 。 每 个 字 节 表示 程序 中 某 个 文本 字符 。 二 

类 部 分 的 现代 系统 都 使 用 ASCI 标准 来 表示 文本 字符 ， 这 种 方式 实际 上 就 是 用 一 个 唯一 的 
单字 节 大 小 的 整数 值 来 表示 每 个 字符 。 例 如 图 1-2 中 给 出 了 hel1o.c 程序 的 ASCII 码 表示 。 
”hello.c 程序 以 字 节 序列 的 方式 存储 在 文件 中 。 每 个 字 节 都 有 一 个 整数 值 ， 而 该 整数 值 对 
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应 于 某 个 字符 。 例 如 ， 第 一 个 字 节 的 整数 值 是 33， 它 对 应 的 就 是 字符 “#  ; 第 二 个 字 节 整数 值 
为 105， 它 对 应 的 字符 是 “i”， 依 次 类 推 。 注 意 ， 每 个 文本 行 都 是 以 一 个 不 可 见 的 换行 符 “\n’ 
来 结束 的 ， 它 所 对 应 的 整数 值 为 10。 像 hello.c 这 样 只 由 ASCI 字符 构成 的 文件 称 为 文本 文 
件 ， 所 有 其 他 文件 都 称 为 二 进 制 文件 。 


# .nn 5 1 u d e <sp> < s 七 d 
35 105 110 99 108 1ii7 100 101 32 60 ii5 116 100 


\n \n i n..t <sp> nm a i n ( 
62 10 10 105 10 116 32 109 97 105 110 
<sp> <sp> <sp> <sp> Dp r i n +t 二 ( 
32 32 32 32 112 114 105 110 116 102 


o 和 a W oO r 1 d \ nm 
i111 44 32 119 es 114 108 100 92 110- 


图 1-2 hello.c 的 ASCII 文本 表示 


hello.c 的 表示 方法 说 明了 一 个 基本 的 思想 系统 中 所 有 的 信息 一 一 包括 磁盘 文件 、 存 人 
器 中 的 程序 、 存 储 器 中 存放 的 用 户 数据 以 及 网 络 上 传送 的 数据 ， 都 是 由 一 串 位 表示 的 。 区 分 不 同 
数据 对 象 的 唯一 方法 是 我 们 读 到 这 些 数据 对 象 时 的 上 下 文 。 比如 ， 在 不 同 的 上 下 文中 ， 一 个 同样 
的 字 节 序列 可 能 表示 一 个 整数 、 浮 点 数 、 字 符 串 或 者 机 器 指令 。 - 

作为 程序 员 ， 我 们 需要 了 解数 字 的 机 器 表示 方式 ， 因为 它们 与 实际 的 整数 和 实数 是 不 同 的 。 
它们 是 对 真 值 的 有 限 近似 值 ， 人 
详细 描述 。 


C 编程 语言 的 起 源 
C 语言 是 贝尔 实验 室 的 Dennis Ritchie 于 1969 年 一 1973 年 间 创 建 的 。 美国 国家 标准 学 会 
(American National Standards Institute，ANSI) 在 1989 年 颁布 了 ANSIC 的 标准 ， 后 来 使 C 语 
言 标准 化 成 为 了 国际 标准 化 组 织 〈International Standards Organization，ISO) 的 责任 。 这 些 标准 
定义 了 C 语言 和 一 系列 函数 库 ， 即 所 谓 的 “C 标准 库 ” Kernighan 和 Ritchie 在 他 们 的 经 典 著 
作 中 描述 了 ANSI C， 这 本 著作 被 人 们 满怀 感情 地 称 为 “K&R”[58]。 用 Ritchie 的 话 来 说 [88]， 
C 语言 是 “古怪 的 、 有 缺陷 的 ， 但 也 是 一 个 巨大 的 成 功 ”。 为 什么 会 成 功 呢 ? 
。C 语言 与 Unix 操作 系统 关系 密切 。C 语言 从 一 开始 就 是 作为 一 种 用 于 Unix 系统 的 程序 
设计 语言 而 开发 出 来 的 。 大 部 分 Unix 内 核 ， 以 及 所 有 支撑 工具 和 六 数 库 部 是 用 C 语言 
写 的 。20 世纪 70 年代 后 期 到 80 年 代 初 期 ，Unix 在 高 等 院 校 兴起 ， 许多 人 开始 接触 C 语 
言 并 喜欢 上 了 它 。 因 为 Unix 几乎 全 部 是 用 C 编写 的 ， 所 以 可 以 很 方便 地 移植 到 新 的 机 器 
上 ， 这 种 特点 为 c 和 Unix 赢得 了 更 为 广泛 的 支持 。 
C 语言 小 而 简单 。 掌控 C 语言 设计 的 是 一 个 人 而 非 一 个 协会 ， 因 此 这 是 一 个 简 洛 明 下 | 
z Se 元 鞠 的 一 致 的 设计 。K&R 这 本 书 用 了 大 量 的 例子 和 统 习 描 述 了 完整 的 C 语言 及 
其 标准 库 ， 而 全 书 不 过 261 页 。C 语言 的 简单 使 它 相对 而 言 易于 学 习 ， 也 易于 移植 到 不 同 
Ne z : 
C 语言 是 为 实践 目的 设计 的 。C 语言 是 为 实现 Unix 操作 夭 统 而 设计 的 。 后 来 ， 其 他 人 发 
现 能 够 用 这 门 语言 无 障碍 地 名 写 他 们 想 要 的 程序 。 | 
C 语言 是 系统 级 编程 的 首选 同 时 多 也 非常 过 用 于 应 用 级 程序 的 编写 ， 而 它 它 也 并 非 和 
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用 于 所 有 的 程序 员 和 所 有 的 情况 。C 语言 的 指针 是 造成 困惑 和 程序 错误 的 一 个 常见 原因 。 同 时 ， 
C 语言 还 缺乏 对 非常 有 用 的 抽象 (例如 类 、 对 象 和 异常 ) 的 显 式 支持 。 像 C++ 和 Java 这 样 针 
对 应 用 级 程序 的 新 程序 设计 语言 解决 了 这 些 问题 。 


1.2 ”程序 被 其 他 程序 翻译 成 不 同 的 格式 


hello 程序 的 生命 周期 是 从 一 个 高 级 C 语言 程序 开始 的 ， 因 为 这 种 形式 能 够 被 人 读 懂 。 然 
而 ， 为 了 在 系统 上 运行 nello.c 程序 ， 每 条 C 语句 都 必须 被 其 他 程序 转化 为 一 系列 的 低级 机 器 
语言 指令 。 然 后 这 些 指 令 按照 一 种 称 为 可 执行 目标 程序 的 格式 打 好 包 ， 并 以 一 进 制 磁盘 文件 的 形 
式 存放 起 来 。 目 标 程序 也 称 为 可 执行 目标 文件 。 

在 Unix 系统 上 ， 从 源 文件 到 目标 文件 的 转化 是 由 编译 器 驱动 程序 完成 的 : 


Unix> gcc -o hello hello.c 


在 这 里 ，GCC 编译 器 驱动 程序 读 取 源 程 序 文件 hello.c， 并 把 它 翻译 成 一 个 可 执行 目标 文件 
he11o。 这 个 翻译 的 过 程 可 分 为 四 个 阶段 完成 ， 如 图 1-3 所 示 。 执行 这 四 个 阶段 的 程序 ( 预 处 理 
器 、 0 汇编 器 和 链接 器 ) 一 起 构成 了 编译 系统 i 


printf.o .. - 





图 1-3 编译 系统 


* 预 处 理 阶段 。 预 处 理 器 (cpp) 根据 以 字符 # 开 头 的 命令 ， 修 改 原始 的 C 程 序 。 比 如 hello.c 
中 第 1 行 的 #include <stdio.h> 命令 告诉 预 处 理 器 读 取 系 统 头 文件 stdio.h 的 内 容 ， 
”并 把 它 直 接 插入 到 程序 文本 中 ， 人 C 程序 ， 通常 是 以 . i 作为 文件 扩 
展 名 。 
编译 阶段 。 编译 器 〈ccl) 将 文本 文件 hello.i 翻译 成 文本 文件 hello.s， 它 包 含 一 个 
汇编 语言 程序 。 汇 编 语言 程序 中 的 每 条 语句 都 以 一 
级 机 器 语 言 指令 。 汇编 语 言 是 非常 有 用 的 ， 因为 它 为 不 同 高 级 语言 言 的 不 同 编译 器 提供 了 通 
用 的 输出 语言 。 例 如 , C 编译 器 和 Fortran 编译 器 产生 的 输出 文件 用 的 都 是 一 样 的 汇编 语言 。 
“汇编 阶段 。 接 下 来 ， 汇 编 器 (as) 将 hello.s 翻译 成 机 器 语言 指令 ， 把 这 些 指令 打包 成 
一 种 叫做 可 重 定位 目标 程序 (relocatable object program) 的 格式 ， 并 将 结果 保存 在 目标 文 
“ 件 hello.o' 中 。hello.o 文 件 是 一 个 二 进 制 文件 ， 它 的 字 节 编码 是 机 器 语言 指令 而 不 是 
字符 。 如 果 我 们 在 文本 编辑 器 中 打开 hello.o 文件 ， 看 到 的 将 是 一 堆 乱 码 。 z 
“链接 阶段 。 请 注意 ，hello 程序 调用 了 printf 函数 ， 它 是 每 个 C 编译 器 都 会 提供 的 标 
准 C 库 中 的 一 个 函数 。printf 函数 存在 于 一 个 名 为 printf.o 的 单独 的 预 编译 好 了 的 目 
“ 标 文件 中 ， 而 这 个 文件 必须 以 某 种 方式 合并 到 我 们 的 hello. o 程序 中 : 链接 器 (ld) 就 
“负责 处 理 这 种 合并 。 结果 就 得 到 heilo 文件 ， 它 是 一 个 可 执行 目 
执行 文件 ) 本 可 以 被 加 载 到 内 存 中 ， 由 系统 执行 


‘GNU 项 目 
GCC 是 GNU (GNU 是 GNU's Not Unix 的 缩写 ) 项 目 开发 出 来 的 众多 有 用 工具 之 一 。 GNU 
项 目 是 1984 年 由 Richard Stallman 发 起 的 一 个 免税 的 炉 善 项目。 该 项 目的 目标 非常 宏大 ， 就 是 开 
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发 出 一 个 完整 的 类 Unix 的 系统 ， 其 源 代 码 能 够 不 受 限制 地 被 修改 和 传播 。GNU 项 目 已 经 开发 出 
了 一 个 包含 Unix 操作 系统 的 所 有 主要 部 件 的 环境 ,但 内 核 除外 ， 内 核 是 由 Linux 项 目 独立 发 展 
而 来 的 。GNU 环境 包括 EMACS 编辑 器 、GCC 编译 器 、GDB 调试 器 、 汇 编 器 、 链 接 器 、 处 理 
二 进 制 文件 的 工具 以 及 其 他 一 些 部 件 。GCC 编译 器 已 经 发 展 到 支持 许多 不 同 的 语言 ， 能 够 针对 
许多 不 同 的 机 器 生成 代码 。 支 持 的 语言 包括 C、C++、Fortran、Java、Pascal、 面 向 对 象 C 语言 
(Objective-C) 和 Ada。 

GNU 项 目 取得 了 非凡 的 成 绩 ， 但 是 却 常 常 被 忽略 。 现 代 开 放 源 码 运 动 (通常 和 Linux 联系 
在 一 起 ) 的 思想 起 源 是 GNU 项 目 中 自由 软件 (free software) 的 概念 。( 此 处 的 free 为 自由 言论 
(free speech) 中 “自由 ”之 意 ， 而 非 免费 啤酒 (free beer) 中 “免费 ”之 意 。) 而 且 ，Linux 如 此 
受 欢迎 在 很 大 程度 上 还 要 归功 于 GNU 工具 ， 因 为 它们 给 Linux 内 核 提 供 了 环境 。 


1.3 了 解 编译 系统 如 何 工 作 是 大 有 昔 处 的 


对 于 像 hello.c 这 样 简 单 的 程序 ， 我 们 可 以 依靠 编译 系统 生成 正确 有 效 的 机 器 代码 。 但 
是 ， 有 一 些 重要 的 原因 促使 程序 员 必 须知 道 编译 系统 是 如 何 工 作 的 ， 其 原因 如 下 : 

。 优 化 程序 性 能 。 现 代 编 译 器 都 是 成 熟 的 工具 ， 通 常 可 以 生成 很 好 的 代码 。 作 为 程序 员 ， 我 
们 无 需 为 了 写 出 高 效 代码 而 去 了 解 编译 器 的 内 部 工作 。 但 是 ， 为 了 在 C 程序 中 做 出 好 的 编 
码 选 择 ， 我 们 确实 需要 了 解 一 些 机 器 代码 以 及 编译 器 将 不 同 的 C 语句 转化 为 机 器 代码 的 方 
式 。 例 如 ， 一 个 switch 语句 是 否 总 是 比 一 系列 的 if-then-else 语句 高 效 得 多 ? 一 个 
函数 调用 的 开销 有 多 大 ? while 循环 比 for 循环 更 有 效 吗 ? 指针 引用 比 数组 索引 更 有 效 
吗 ? 为 什么 将 循环 求 和 的 结果 放 到 一 个 本 地 变量 中 ， 与 将 其 放 到 一 个 通过 引用 传递 过 来 的 
参数 中 相 比 ， 运 行 速度 要 快 很 多 呢 ? 为 什么 我 们 只 是 简单 地 重新 排列 一 下 一 个 算术 表达 式 
中 的 括号 就 能 让 一 个 函数 运行 得 更 快 ? | 

在 第 3 章 中 ， 我 们 将 介绍 两 种 相关 的 机 器 语言 : IA32 和 x86-64。IA32 是 32 位 的 ， 
目前 普遍 应 用 于 运行 Linux、Windows 以 及 较 新 版 本 的 Macintosh 操作 系统 的 机 器 上 ; 
x86-64 是 64 位 的 ， 可 以 用 在 比较 新 的 微 处 理 器 上 。 我 们 会 介绍 编译 器 是 如 何 把 不 同 的 
C 语言 结构 转换 成 它们 的 机 器 语言 的 。 第 5 章 ， 你 将 学 习 如 何 通过 简单 转换 C 语言 代 
码 ， 以 帮助 编译 器 更 好 地 完成 工作 ， 从 而 调整 C 程序 的 性 能 。 在 第 6 章 ， 你 将 学 习 到 
存储 器 系统 的 层次 结构 特性 ，C 语言 编译 器 将 数组 存放 在 存储 器 中 的 方式 ， 以 及 C 程 
序 又 是 如 何 能 够 利用 这 些 知识 从 而 更 高 效 地 运行 。 

。 理 解 链接 时 出 现 的 错误 。 根 据 我 们 的 经 验 ， 一 些 最 令 人 困扰 的 程序 错误 往往 都 与 链接 器 操 
作 有 关 ， 尤 其 是 当 你 试图 构建 大 型 的 软件 系统 时 。 人 例如， 链接 器 报告 它 无 法 解析 一 个 引 
用 ， 这 是 什么 意思 ? 静态 变量 和 全 局 变量 的 区 别 是 什么 ? 如 果 你 在 不 同 的 C 文件 中 定义 了 
名 字 相同 的 两 个 全 局 变量 会 发 生 什 么 ? 静态 库 和 动态 库 的 区 别 是 什么 ? 我们 在 命令 行 上 排 

” 列 库 的 顺序 有 什么 影响 ? 最 严重 的 是 ， 为 什么 有 些 链 接 错误 直到 运行 时 才 会 出 现 ? 在 第 7 
章 ， 你 将 得 到 这 些 问题 的 答案 。 

。 避 免 安全 漏洞 。 多 年 来 ， 缓 冲 区 溢出 错误 是 造成 大 多 数 网 络 和 Iternet 服务 器 上 安全 漏洞 

的 主要 原因 。 存 在 这 些 错误 是 因为 很 少 有 人 能 理解 限制 他 们 从 不 受信 任 的 站 点 接收 数据 
的 数量 和 格式 的 重要 性 。 学 习 安 全 编程 的 第 一 步 就 是 理解 数据 和 控制 信息 存储 在 程序 栈 
上 的 方式 会 引起 的 后 果 。 作 为 学 习 汇编 语言 的 一 部 分 ， 我 们 将 在 第 3 章 中 描述 堆栈 原理 
和 缓冲 区 溢出 错误 。 我 们 还 将 学 习 程 序 员 、 编 译 器 和 操作 系统 可 以 用 来 降低 攻击 威胁 的 
方法 。 


有 了 音 矿 蔓 如 炙 纤 竟 洋 了 


1.4 “处 理 器 读 并 解释 存储 在 存储 器 中 的 指令 


此 刻 ，hello.c 源 程序 已 经 被 编译 系统 翻译 成 了 可 执行 目标 文件 hello， 并 存放 在 磁盘 
上 。 要 想 在 Unix 系统 上 运行 该 可 执行 文件 ， 我 们 将 它 的 文件 名 输入 到 称 为 外 壳 〈shell) 的 应 
用 程序 中 : 

unix> ./hello 


hello, world 
unix> 


外 壳 是 一 个 命令 行 解释 器 ， 它 输出 一 个 提示 符 ， 等 待 你 输入 一 个 命令 行 ， 然 后 执行 这 个 命 
令 。 如 果 该 命令 行 的 第 一 个 单词 不 是 一 个 内 置 的 外 壳 命令 ， 那 么 外 壳 就 会 假设 这 是 一 个 可 执行 文 
件 的 名 字 ， 它 将 加 载 并 运行 这 个 文件 。 所 以 在 此 例 中 ， 外 壳 将 加 载 并 运行 nello 程序 ， 然 后 等 
待 程序 终止 。hello 程序 在 屏幕 上 输出 它 的 信息 ， 然 后 终止 。 外 这 随后 输出 一 个 提示 符 ， 等 竺 
下 一 个 输入 的 命令 行 。 

1.4.1 系统 的 硬件 组 成 . \ 

为 了 理解 运行 nello 程序 时 发 生 了 什么 ， 我 们 需要 了 解 一 个 典型 系统 的 硬件 组 织 ， 如 图 
1-4 所 示 。 这 张 图 是 Intel Pentium 系统 产品 系列 的 模型 ， 但 是 所 有 其 他 系统 也 有 相同 的 外 观 和 特 
性 。 现 在 不 要 担心 这 张 图 的 复杂 性 一 一 我 们 将 在 本 书 分 阶段 介绍 大 量 的 细节 。 
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图 1-4 “一 个 典型 系统 的 硬件 组 成 
CPU ; 中 央 处 理 单元 ; ALU ; 算术 / 逻辑 单元 ; PC : 程序 计数 器 ; USB : 通用 品行 总 线 、 

1. 总 线 

贯穿 整个 系统 的 是 一 组 电子 管道 ， 称 做 总 线 ， 它 携带 信息 字 节 并 人 负责 在 各 个 部 件 间 传递 。 通 
常 总 线 被 设计 成 传送 定 长 的 字 节 块 ， 也 就 是 字 (word)。 字 中 的 字 节 数 〈 即 字 长 ) 是 一 个 基本 的 
系统 参数 ， 在 各 个 系统 中 的 情况 都 不 尽 相 同 。 现 在 的 大 多 数 机 器 字 长 有 的 是 4 个 字 节 (32 位 )， 有 
的 是 8 个 字 入 《64 位 )。 为 了 讨论 的 方便 ， 假 设 字 长 为 4 个 字 节 ， 并 且 总 线 每 次 只 传送 1 个 字 。 

2. I/O 设备 : 和 

输入 /输出 (VO) 设备 是 系统 与 外 部 世界 的 联系 通道 。 我 们 的 示例 系统 包括 4 个 IO 设备 : 
作为 用 户 输入 的 键盘 和 鼠标 ， 作 为 用 户 输出 的 显示 器 ， 以 及 用 于 长 期 存储 数据 和 程序 的 磁盘 驱动 
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器 〈 简 单 地 说 就 是 磁盘 )。 最 初 ， 可 执行 程序 hello 就 存放 在 磁盘 上 。 

每 个 IO 设备 都 通过 一 个 控制 器 或 适配器 与 IO 总 线 相 连 。 控 制 器 和 适配器 之 间 的 区 别 主 要 
在 于 它们 的 封闭 方式 。 控 制 器 是 置 于 IO 设备 本 身 的 或 者 系统 的 主 印 制 电 路 板 〈 通 常 称 为 主板 
上 的 芯片 组 ， 而 适配器 则 是 一 块 播 在 主板 播 槽 上 的 卡 。 无 论 如 何 ， 它 们 的 功能 都 是 在 IO 总 线 和 
LO 设备 之 间 传 递 信息 。 

第 6 章 会 更 多 地 说 明 磁 盘 之 类 的 IO 设备 是 如 何 工作 的 。 在 第 10 章 ， 你 将 学 习 如 何在 应 用 
程序 中 利用 Unix IO 接口 访问 设备 。 我 们 将 特别 关注 网 络 类 设备 ， 不 过 这 些 技术 对 于 其 他 设备 
来 说 也 是 通用 的 。 

3. 主 存 | 

主 存 是 一 个 临时 存储 设备 ， 在 处 理 器 执行 程序 时 ， 用 来 存放 程序 和 程序 处 理 的 数据 。 从 物理 
上 来 说 ， 主 存 是 由 一 组 动态 随机 存 取 看 储 器 (DRAM) 芯片 组 成 的 。 从 逻辑 上 来 说 ， 存 储 器 是 一 
个 线性 的 字 节 数组 ， 每 个 字 节 都 有 其 唯一 的 地 址 〈 即 数组 索引 )， 这 些 地 址 是 从 零 开 始 的 。 一 般 
来 说 ， 组 成 程序 的 每 条 机 器 指令 都 由 不 同 数量 的 字 节 构成 。 与 C 程序 变量 相对 应 的 数据 项 的 大 
小 是 根据 类 型 变化 的 。 例 如 ， 在 运行 Linux 的 IA32 机 器 上 ，short 类 型 的 数据 需要 2 个 字 节 ， 
int、float 和 Long 类 型 需要 4 个 字 节 ， 而 double 类 型 需要 8 个 字 节 。 

第 6 章 将 具体 介绍 存储 技术 ， 如 DRAM 芯片 是 如 何 工作 的 ， 以 及 它们 又 是 如 何 组 合 起 来 构 
成 主 存 的 。 

4. 处 理 器 

中 央 处 理 单元 (CPU)， 简 称 处 理 器 ， 是 解释 (或 执行 ) 存储 在 主 存 中 指令 的 引擎。 处 理 器 
的 核心 是 一 个 字 长 的 存储 设备 (或 寄存 器 )， 和 和 (PC). 在 任何 时 刻 ，PC 都 指向 主 
存 中 的 某 条 机 器 语言 指令 〈 即 含有 该 条 指令 的 地 址 )。 

从 系统 通电 开始 ， 言 到 系统 断 电 ， 处 理 器 一 直 在 不 断 地 执行 程序 计数 器 指向 的 指令 ， 再 更 新 
程序 计数 器 ， 使 其 指向 下 一 条 指令 。 处 理 器 看 上 去 是 按照 一 个 非常 简单 的 指令 执行 模型 来 操作 
的 ， 这 个 模型 是 由 指令 集结 构 决 定 的 。 在 这 个 模型 中 ， 指 令 按照 严格 的 顺序 执行 ， 而 执行 一 条 指 
令 包 含 执行 一 系列 的 步 又。 处 理 器 从 程序 计数 器 (PC) 指向 的 存储 器 处 读 取 指 令 ， 解 释 指令 中 
的 位 ， 执 行 该 指令 指示 的 简单 操作 ， 然 后 更 新 PC， 使 其 指向 下 一 条 指令 ， 而 这 条 指令 并 不 一 定 
与 存储 器 中 刚刚 执行 的 指令 相 邻 。 

这 样 的 简单 操作 并 不 多 ， 而 且 操 作 是 围绕 着 主 存 、 寄 存 器 文件 (register fle) 和 算术 / 膛 辑 

单元 (ALU) 进行 的 。 寄 存 器 文件 是 一 个 小 的 存储 设备 ， 由 一 些 1 字 长 的 寄存 器 组 成 ， 每 个 寄 
存 器 都 有 唯一 的 名 字 。ALU 计算 新 的 数据 和 地 址 值 。 下 面 列举 一 些 简 单 操作 的 例子 ，CPU 在 指 
令 的 要 求 下 可 能 会 执行 以 下 操作 : 

。 加载 : 把 一 个 字 节 或 者 一 个 字 从 主 存 复制 到 寄存 器 ， 以 覆盖 寄存 器 原来 的 内 容 。 

。 存 储 : 把 一 个 字 节 或 者 一 个 字 从 寄存 器 复制 到 主 存 的 某 个 位 置 ， 以 覆盖 这 个 位 置 上 原来 

的 内 容 。 

。 操 作 : 把 两 个 寄存 器 的 内 容 复制 到 ALU，ALU 对 这 两 个 字 做 算术 操作 ， 并 将 结果 存放 到 

一 个 寄存 器 中 ， 以 覆盖 该 寄存 器 中 原来 的 内 容 。 

。 跳 转 : 从 指针 本 身 中 抽取 一 个 守 ， 并 将 这 个 字 复制 到 程序 计数 器 (PC) 中 ， 以 覆盖 PC 中 

原来 的 值 。 

处 理 器 看 上 去 只 是 它 的 指令 集结 构 的 简单 实现 ， 但 是 实际 上 现代 处 理 器 使 用 了 非常 复杂 的 机 
制 来 加 速 程序 的 执行 。 因 此 ， 我 们 可 以 这 样 区 分 处 理 器 的 指令 集结 构 和 微 体系 结构 : 指令 集结 构 


@ PC 也 普遍 地 被 用 来 作为 “个 人 计算 机 ”的 缩写 。 然 而 ， 两 者 之 间 的 区 别 应 该 可 以 很 清楚 地 从 上 下 文中 看 出 来 。 
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描述 的 是 每 条 机 器 代码 指令 的 效果 ; 而 微 体系 结构 描述 的 是 处 理 器 实际 上 是 如 何 实 现 的 。 第 3 章 
我 们 研究 机 器 代码 时 考虑 的 是 机 器 的 指令 集结 构 所 提供 的 抽象 性 。 第 4 章 将 更 详细 地 介绍 处 理 器 
实际 上 是 如 何 实现 的 。 
1.4.2 ”运行 helLLo 程序 

前 面 简 单 描述 了 系统 的 硬件 组 成 和 操作 ， 现 在 开始 介绍 当 我 们 运行 示例 程序 时 到 底 发 生 了 
些 什 么 。 在 这 里 我 们 必须 省 略 很 多 细节 稍 后 再 做 补充 ， 但 是 从 现在 起 我 们 将 很 满意 这 种 整体 上 
的 描述 。 有 

初始 时 ， 外 过 程序 执行 它 的 指令 ， 等 待 我 们 输入 一 个 命令 。 yw 我 们 在 键盘 上 输入 字符 申 
“./hello” 后 ， 外 壳 程 序 将 字符 逐一 读 人 寄存 器 ， 再 把 它 存 放 到 存储 器 中 ， 如 图 1-5 所 示 。 
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用 户 输入 
“hello” 


”图 I-5 从 键盘 上 读 取 hello 命令 


当 我 们 在 键盘 上 敲 回 车 键 时 ， 外 壳 程序 就 知道 我 们 已 经 结束 了 命令 的 输入 。 然 后 外 过 执行 一 
系列 指令 来 加 载 可 执行 的 hello 文件 ， 将 hello 目标 文件 中 的 代码 和 数据 从 磁盘 复制 到 主 存 。 
数据 包括 最 终 会 被 输出 的 字符 串 “he11o，world\n?”。 

利用 直接 存储 器 存 取 (DMA， 将 在 第 6 章 讨 论 ) 的 技术 ， 数 据 可 以 不 通过 处 理 器 而 直接 从 
磁盘 到 达 主 存 。 这 个 步骤 如 图 1-6 所 示 。 

一 旦 目标 文件 hello 中 的 代码 和 数据 被 加 载 到 主 存 ， 处 理 器 就 开始 执行 hello 程序 的 
main 程序 中 的 机 器 语言 指令 。 这 些 指令 将 “hello，world\n” 字 符 串 中 的 字 节 从 主 存 复 制 到 
寄存 器 文件 ， 国人 宙 全 种 实 件 中 必 人 到 吕 不 en 最 终 显示 在 屏幕 上 。 人 1-7 所 示 。 


1.5 高 速 缓存 至 关 重 要 


“这 个 简单 的 示例 揭示 了 一 个 重要 的 问题 ， 即 系统 花费 了 大 量 的 时 间 把 信息 从 一 个 地 方 挪 到 另 
一 个 地 方 。hello 程序 的 机 器 指令 最 初 是 存放 在 磁盘 上 的 ， 当 程序 加 载 时 ， 它们 被 复制 到 主 存 ; 
当 处 理 器 运行 程序 时 ， 指 令 又 从 主 存 复制 到 处 理 器 。 相 似 地 ， 数 据 串 “hello，world\n” 初 
始 时 在 磁盘 上 ， 然后 复制 到 主 存 ， 最 后 从 主 存 上 复制 到 显示 设备 。 从 程序 员 的 角度 来 看 ， 这 些 复 
制 就 是 开销 , 减缓 了 程序 “真正 ” 的 工作 。 因此 ， 系统 设计 者 的 一 个 主要 目 标 就 是 使 这 些 复制 操 
作 尽 可 能 快 地 完成 。 
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3 可 执行 文件 
图 1-6 从 磁盘 加 载 可 执行 文件 到 主 存 
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“hello, world\n” 


鼠标 “键盘 显示 器 
“hello, world\n” 存储 在 磁盘 上 的 hel1lo 


可 执行 文件 
图 1-7 将 输出 字符 申 从 内 存 写 到 显示 器 


根据 机 械 原理 ， 较 大 的 存储 设备 要 比较 小 的 存储 设备 运行 得 慢 ， 而 快速 设备 的 造价 远 高 于 同 
类 的 低速 设备 。 例 如 ， 一 个 典型 系统 上 的 磁盘 驱动 器 可 能 比 主 存 大 1000 倍 ， 但 是 对 处 理 器 而 言 
从 磁盘 驱动 器 上 读 取 一 个 字 的 时 间 开 销 要 比 从 主 存 中 读 取 的 开销 大 1000 万 倍 。 

类 似 地 ， 一 个 典型 的 寄存 器 文件 只 存储 几 百 字 节 的 信息 ， 而 主 存 里 可 存放 几 十 亿 字 节 。 然 
而 ， 处 理 器 从 寄存 器 文件 中 读数 据 的 速度 比 从 主 存 中 读 取 几乎 要 快 100 售 。 更 麻烦 的 是 ， 随 着 这 
至 年 半导体 技术 的 进步 ， 这 种 处 理 器 与 主 存 之 间 的 邦 距 还 在 持续 增 大 。 人 
加 快 主 存 的 运行 速度 要 容易 和 便宜 得 多 。 | 
”针对 这 种 处 理 器 与 主 存 之 间 的 差异 ， 系统 设计 者 采用 了 更 小 、 更 快 的 存储 设备 即 高 束 绥 
在 存储 器 (简称 高 速 绥 存 )， 作 为 暂时 的 集结 区 域 ， 用 来 存放 处 理 器 近期 可 能 会 需要 的 信息 。 图 
1-8 展示 了 一 个 典型 系统 中 的 高 速 缓存 存储 器 。 位 于 处 理 器 芯片 上 的 L1 高 速 缓存 的 容量 可 以 达 
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图 1-8 高 速 缓存 存储 器 


到 数 万 字 节 ， 访 问 速度 几乎 和 访问 寄存 器 文件 一 样 快 。 一 个 容量 为 数 十 万 到 数 百 万 字 节 的 更 大 的 
L2 高 速 缓存 通过 一 条 特殊 的 总 线 连接 到 处 理 器 。 进 程 访问 L2 高 速 缓存 的 时 间 要 比 访 问 L1 高 速 
缓存 的 时 间 长 5 倍 ， 但 是 这 仍然 比 访问 主 存 的 时 间 快 5~ 10 倍 。L1 和 L2 高 速 缓存 是 用 一 种 叫 
做 静态 随机 访问 存储 器 (SRAM) 的 硬件 技术 实现 的 。 比 较 新 的 、 处 理 能 力 更 强大 的 系统 甚至 有 
三 级 高 速 缓存 : LI、L2 和 IL3。 系 统 可 以 获得 一 个 很 大 的 存储 器 ， 同 时 访问 速度 也 很 快 ， 原 因 是 
利用 了 高 速 缓存 的 局 部 性 原理 ， 即 程序 具有 访问 局 部 区 域 里 的 数据 和 代码 的 趋势 。 通 过 让 高 速 组 
存 里 存放 可 能 经 常 访问 的 数据 的 方法 ， 大 部 分 的 存储 器 操作 都 能 在 快速 的 高 速 缓存 中 完成 。 

本 书 得 出 的 重要 结论 之 一 ， 就 是 意识 到 高 速 缓存 存在 的 应 用 程序 员 可 以 利用 高 速 缓存 将 他 们 
程序 的 性 能 提高 一 个 数量 级 。 你 将 在 第 6 章 学 习 这 些 重 要 的 设备 以 及 如 何 利用 它们 。 


1.6 存储 设备 形成 层次 结构 : 

在 处 理 器 和 一 个 又 大 又 慢 的 设备 〈 例 如 主 存 ) 之 间 插入 一 个 更 小 更 快 的 存储 设备 〈 例 如 高 速 
缓存 ) 的 想法 已 经 成 为 了 一 个 普遍 的 观念 。 实 际 上 ， 每 个 计算 机 系统 中 的 存储 设备 都 被 组 织 成 了 
一 个 存储 器 层次 结构 ， 如 图 1-9 所 示 。 在 这 个 层次 结构 中 ， 从 上 至 下 ， 设 备 变 得 访问 速度 越 来 越 
慢 、 容 量 越 来 越 大 ， 并 且 每 字 节 的 造价 也 越 来 越 便宜 。 寄 存 器 文件 在 层次 结构 中 位 于 最 顶部 ， 也 
就 是 第 0 级 或 记 为 L0。 这 里 我 们 展示 的 是 三 层 高 速 缓存 LI 到 L3， 占 据 存储 器 层次 结构 的 第 1 
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(SRAM) | L3 高 速 缓存 保存 取 自 主 存 
更 大 | 的 高 速 缓存 行 
L4: 主 存 | 
更 慢 z (DRAM ) 







(每 字 节 ) | 

更 便宜 的 。 心 : 本 地 二 级 存储 | 的 磁盘 块 

存储 设备 ee \ “| 本 地 磁盘 保存 取 自 远程 网 络 
L6: 远程 二 级 存储 服务 器 上 磁盘 的 文件 









(分 布 式 文件 系统 ，Web 服 务 器 ) 





”图 1-9 一 个 存储 器 层次 结构 的 示例 
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层 到 第 3 层 。 主 存在 第 4 层 ， 以 此 类 推 。 

存储 器 层次 结构 的 主要 思想 是 一 层 上 的 存储 器 作为 低 一 层 存 储 器 的 高 速 缓存 。 因 此 ， 寄 存 器 
文件 就 是 LI 的 高 速 缓存 ，L1 是 L2 的 高 速 缓存 ，L2 是 L3 的 高 速 缓存 ，L3 是 主 存 的 高 速 缓存 ， 
而 主 存 又 是 磁盘 的 高 速 缓存 。 在 某 些 具有 分 布 式 文件 系统 的 网 络 系统 中 ， 本 地 磁盘 就 是 存储 在 其 
他 系统 中 磁盘 上 的 数据 的 高 速 缓存 。 

正如 可 以 运用 不 同 的 高 速 缓存 的 知识 来 提高 程序 性 能 一 样 ， 程 序 员 同样 可 以 利用 对 整个 存储 
器 层次 结构 的 理解 来 提高 程序 性 能 。 第 6 章 将 更 详细 地 讨论 这 个 问题 。 


1.7 操作 系统 管理 硬件 


我 们 继续 讨论 hello 程序 的 例子 。 当 外 壳 加 载 和 运行 nello 程序 ， 以 及 hello 程序 输出 
自己 的 消息 时 ， 外 壳 和 hello 程序 都 没 
有 直接 访问 键盘 、 显 示 器 、 磁 盘 或 者 主 
存 。 取 而 代 之 的 是 ， 它 们 依靠 操作 系统 提 
供 的 服务 。 我 们 可 以 把 操作 系统 看 成 是 应 
用 程序 和 硬件 之 间 插 入 的 一 层 软件 ， 如 图 
1-10 所 示 。 所 有 应 用 程序 对 硬件 的 操作 学 
试 都 必须 通过 操作 系统 。 

操作 系统 有 两 个 基本 功能 : 1) 防止 
硬件 被 失控 的 应 用 程序 滥用 。2) 向 应 用 
程序 提供 简单 一 致 的 机 制 来 控制 复杂 而 又 


通常 大 相 径 庭 的 低级 硬件 设备 。 操 作 系统 

通过 几 个 基本 的 抽象 概念 《进程 、 座 所 
存储 器 和 文件 ) 来 实现 这 两 个 功能 。 如 图 1-11 操作 系统 提供 的 抽象 表示 

图 1-11 所 示 ， 文 件 是 对 IO 设备 的 抽象 表 

示 ， 虚 拟 存储 器 是 对 主 存 和 磁盘 IO 设备 的 抽象 表示 ， 进 程 则 是 对 处 理 器 、 主 存 和 IO 设备 的 抽 
象 表示 。 我 们 将 依次 讨论 每 种 抽象 表示 。 





Unix 和 Posix 

20 世 纪 60 年 代 是 大 型 、 复 杂 操 作 系 统 盛 行 的 年 代 ， 如 IBM 的 OS/360 和 Honeywell 的 
Multics 系统 。OS/360 是 历史 上 最 成 功 的 软件 项 目 之 一 ， 而 Multics 虽然 持续 存在 了 多 年 ， 却 从 
来 没有 被 广泛 应 用 。 贝 尔 实 验 室 曾经 是 Multics 项 目的 最 初 参与 者 ， 但 是 考虑 到 该 项 目的 复杂 性 
和 缺乏 进展 于 1969 年 退出 。 监 于 Multics 项 目 不 愉 快 的 经 历 ， 一 组 贝尔 实验 室 的 研究 人 员 一 一 
Ken Thompson、Dennis Ritchie、Doug Mcllroy 和 Joe Ossanna， 从 1969 年 开始 在 DEC PDP-7 计 
算 机 上 完全 用 机 器 语言 编写 了 一 个 简单 得 多 的 操作 系统 。 这 个 新 系统 中 的 很 多 思想 ， 如 层次 文件 
系统 、 作 为 用 户 级 进程 的 外 党 概念 ， 都 是 来 自 于 Multics， 只 不 过 在 一 个 更 小 、 更 简单 的 程序 包 
里 实现 。1970 年 , Brian Kernighan 给 新 系统 命名 为 “Unix”， 这 也 是 一 个 双关 语 ， 瞳 指 “Mnultics” 
的 复杂 性 。1973 年 用 C 语言 重新 编写 其 内 核 ，1974 年 ，Unix 开始 正式 对 外 发 布 [89]。 

贝尔 实验 室 以 慷慨 的 条 件 向 学 校 提 供 源 代 码 ， 所 以 Unix 在 大 专 院 校 里 获得 了 很 多 支持 并 继 
续 发 展 。 最 有 影响 的 工作 是 20 世纪 70 年 代 晚 期 到 80 年 代 早期 ， 在 美国 加 州 大 学 伯克利 分 校 ， 
伯克利 的 研究 人 员 在 一 系列 发 布 版 本 中 增加 了 虚拟 存储 器 和 Internet 协议 ， 称 为 Unix 4.xBSD 
(Berkeley Software Distribution)。 与 此 同时 ， 贝 尔 实验 室 也 在 发 布 自己 的 版 本 ， 即 System V 
Unix。 其 他 厂商 的 版 本 ， 如 Sun Microsystems 的 Solaris 系统 ， 则 是 从 这 些 最 初 的 BSD 和 System 
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V 版 本 中 衍生 而 来 。 

20 世纪 .80 年 代 中 期 ，Unix 厂商 试图 通过 加 入 新 的 、 往 往 不 兼容 的 特性 来 使 它们 的 程序 与 众 不 
同 ， 麻 烦 也 就 随 之 而 来 了 。 为 了 阻止 这 种 趋势 ，IEEE (电气 和 电子 工程 师 协 会 ) 开始 努力 标准 化 
Unix 的 开发 ， 后 来 由 Richard Stallman 命名 为 “Posix”。 结 采 就 得 到 了 一 系列 的 标准 ， 称 做 Posix 
标准 。 这 套 标准 涵盖 了 很 多 方面 ， 比 如 Unix 系统 调用 的 C 语言 接口 、 外 党 程序 和 工具 、 线 程 及 网 
络 编程 。 随 着 越 来 越 多 的 系统 日 益 完 全 地 遵从 Posix 标准 ，Unix 版 本 之 间 的 差异 正在 逐渐 消失 。 


1.7.1 进程 

像 hello 这 样 的 程序 在 现代 系统 上 运行 时 ， 操 作 系 统 会 提供 一 种 假象 ， 就 好 像 系 统 上 只 有 
这 个 程序 在 运行 ， 看 上 去 只 有 这 个 程序 在 使 用 处 理 器 、 主 存 和 1O 设备 。 处 理 器 看 上 去 就 像 在 不 
间断 地 一 条 接 一 条 地 执行 程序 中 的 指令 ， 即 该 程序 的 代码 和 数据 是 系统 存储 器 中 唯一 的 对 象 。 这 
些 假 象 是 通过 进程 的 概念 来 实现 的 ， 进 程 是 计算 机 科学 中 最 重要 和 最 成 功 的 概念 之 一 。 

进程 是 操作 系统 对 一 个 正在 运行 的 程序 的 一 种 抽象 。 在 一 个 系统 上 可 以 同时 运行 多 个 进程 ， 
而 每 个 进程 都 好 像 在 独占 地 使 用 硬件 。 而 并 发 运行 ， 则 是 说 一 个 进程 的 指令 和 男 一 个 进程 的 指令 
是 交错 执行 的 。 在 大 多 数 系统 中 ， 需 要 运行 的 进程 数 是 多 于 可 以 运行 它们 的 CPU 个 数 的 。 传 统 
系统 在 一 个 时 刻 只 能 撕 行 一 个 程序 ， 而 先进 的 多 核 处 理 器 同时 能 够 执行 多 个 程序 。 无 论 是 在 单 核 
还 是 多 核 系 统 中 ， 一 个 CPU 看 上 去 都 像 是 在 并 发 地 执行 多 个 进程 ， 这 是 通过 处 理 器 在 进程 间 切 
换 来 实现 的 。 操作 系统 实现 这 种 交错 执行 的 机 制 称 为 上 下 文 切换 。 为 了 简化 讨论 ， 我 们 只 考虑 包 
含 一 个 CPU 的 单 处 理 器 系统 的 情况 。 我 们 会 在 1.9.1 节 讨 论 多 处 理 器 系统 。 

操作 系统 保持 跟踪 进程 运行 所 需 的 所 有 状态 信息 。 这 种 状态 ， 也 就 是 上 下 文 ， 它 包括 许多 信 
息 ， 例 如 PC 和 寄存 器 文件 的 当前 值 ， 以 及 主 存 的 内 容 。 在 任何 一 个 时 刻 ， 单 处 理 器 系统 都 只 能 
执行 一 个 进程 的 代码 。 当 操作 系统 决定 要 把 控制 权 从 当前 进程 转移 到 某 个 新 进程 时 ， 就 会 进行 上 
下 文 切换 ， 即 保存 当前 进程 的 上 下 文 、 恢 复 新 进程 的 上 下 文 ， 然 后 将 控制 权 传 递 到 新 进程 。 新 进 
” 程 就 会 从 上 次 停止 的 地 方 开 始 。 图 1-12 展示 了 示例 hello 程序 运行 场景 的 基本 理念 。 












时 间 进程 A 进程 B 
一 一 二 一 
7h 
' 内 核 代码 “} 上 下 文 切换 
es 代码 
ee ’ 内 核 代码 -J 
rea - -> 一 -一 i ee 
有 


图 1-12 Re 


示例 场景 中 有 两 个 并 发 的 进程 : 外 壳 进 程 和 he11o 进程 。 起 初 ， 只 有 外 壳 进 程 在 运行 ， 即 
等 待命 令 行 上 的 输入 。 当 我 们 让 它 运行 hello 程序 时 ， 外 过 通过 调用 一 个 专门 的 函数 ， 即 系 统 
调用 ， 来 执行 我 们 的 请 求 ， 系 统 调用 会 将 控制 权 传递 给 操作 系统 。 操 作 系 统 保存 外 过 进程 的 上 下 
文 ， 创 建 一 个 新 的 hello 进程 及 其 上 下 文 ， 然 后 将 控制 权 传递 给 新 的 hello 进程 。hello 进 
程 终止 后 ， 操 作 系统 恢复 外 壳 进程 的 上 下 文 ， 并 将 控制 权 传 问 双 全 它 ， 人 
命令 行 输入 。 

实现 进程 这 个 抽象 概 念 需要 低级 硬件 和 操作 系统 软件 之 间 的 紧密 合作 。 我 们 将 在 第 8 章 提示 
这 项 工作 的 原理 ， 以 及 应 用 程序 是 如 何 创建 和 控制 它们 的 进程 的 。 
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1.7.2 ”线程 / 
尽管 通常 我 们 认为 一 个 进程 只 有 单一 的 控制 流 ， 但 是 在 现代 系统 中 ， 一 个 进程 实际 上 可 以 由 
多 个 称 为 线程 的 执行 单元 组 成 ， 每 个 线程 都 运行 在 进程 的 上 下 文中 ， 并 共享 同样 的 代码 和 全 局 数 
据 。 由 于 网 络 服务 器 对 并 行 处 理 的 需求 ， 线 程 成 为 越 来 越 重要 的 编程 模型 ， 因 为 多 线程 之 间 比 多 
进程 之 间 更 容易 共享 数据 ， 也 因为 线程 一 般 来 说 都 比 进程 更 高 效 。 当 有 多 处 理 器 可 用 的 时 候 ， 多 
线程 也 是 一 种 使 程序 可 以 更 快运 行 的 方法 ， 我 们 将 在 1.9.1 节 讨 论 这 个 问题 。 你 将 在 第 12 章 学 习 
到 并 发 的 基本 概念 ， 以 及 如 何 写 线程 化 的 程序 。 
1.7.3 ”虚拟 存储 器 
虚拟 存储 器 是 一 个 抽象 概念 ， 它 为 每 个 进程 提供 了 一 个 假象 ， 即 每 个 进程 都 在 独占 地 使 用 主 
存 。 每 个 进程 看 到 的 是 一 致 的 存储 器 ， 称 为 虚拟 地 址 空间 。 图 1-13 所 示 的 是 Linux 进程 的 虚拟 
地 址 空间 (其 他 Unix 系统 的 设计 也 与 此 类 似 )。 在 Linux 中 ， 地 址 空间 最 上 面 的 区 域 是 为 操作 系 
统 中 的 代码 和 数据 保留 的 ， 这 对 所 有 进程 来 说 都 是 一 样 的 。 地 址 空 同 的 底部 区 域 存 放 用 户 进程 定 
6 i 


和 A 
存储 器 ， 


PrzintE 函 数 


从 hello 可 执行 
文件 加 载 进来 的 
0x08048000(32) 下 
0x00400000 (64) FP 





”图 1-13 进程 的 虚拟 地 址 空间 


每 个 进程 看 到 的 虚拟 地 址 空间 由 大 量 准确 定义 的 区 构成 ， 每 个 区 都 有 专门 的 功能 。 本 书 的 后 
续 章 节 将 介绍 更 多 的 有 关 这 些 区 的 知识 ， 但 是 先 简单 了 解 每 一 个 区 将 是 非常 有 益 的 。 我 们 是 从 最 
低 的 地 址 开始 ， 逐 步 同 上 介绍 。 
。 程序 代码 和 数据 。 对 于 所 有 的 进程 来 说 ， 代 码 是 从 同一 固定 地 址 开始 ， 紧 接着 的 是 和 C 全 
局 变量 相对 应 的 数据 位 置 。 代 码 和 数据 区 是 直接 按照 可 执行 目标 文件 的 内 容 初 始 化 的 ， 在 
示例 中 就 是 可 执行 文件 hello。 gd a 你 将 会 学 习 到 更 多 有 关 地 址 
空间 的 内 容 。 
, 堆 。 代码 和 数据 区 后 后 紧 随 着 的 是 运行 时 堆 . 代码 和 数据 区 是 在 进程 开始 运行 时 就 被 规定 
了 大 小 ， 与 此 不 同 ， 当 调用 如 malloc 和 free 这 样 的 C 标准 库 函 数 时 ， 堆 可 以 在 运行 时 
动态 地 扩展 和 收缩 。 第 9 章 学 习 管 理 虚 拟 存储 器 时 ， 我 们 将 更 详细 地 研究 堆 。 
-共享 库 。 大 约 在 地 址 空间 的 中 间 部 分 是 一 决 用 来 存放 像 C 标准 库 和 数学 库 这 样 共享 库 的 代 
码 和 数据 的 区 域 。 共 享 库 的 概念 非常 强大 ， 也 相当 难 懂 。 第 7 章 介 绍 动态 链接 时 ,我 们 将 
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学 习 共 享 库 是 如 何 工作 的 。 / : 

。 栈 。 位 于 用 户 虚 拟 地 址 空 s 间 顶部 的 是 用 户 术 ， 编译 器 用 它 来 实现 函数 调用 。 和 推 一 样 ， 用 

户 栈 在 程序 执行 期 间 可 以 动态 地 扩展 和 收缩 。 me 栈 就 会 增 

长 ; 从 一 个 函数 返回 时 ， 栈 就 会 收缩 。 在 第 3 章 ， 你 将 学 习 编译 器 是 如 何 使 用 栈 的 。 . 

。 内核 虚拟 存储 器 。 内 核 总 是 驻 留 在 内 存 中 ， 是 操作 系统 的 一 部 分 。 地 址 空间 顶部 的 区 域 是 

为 内 核 保留 的 ， 不 允许 应 用 程序 读 写 这 个 区 域 的 内 容 或 者 直接 调用 内 核 代码 定义 的 函数 。 

虚拟 存储 器 的 运作 需要 硬件 和 操作 系统 软件 之 间 精 密 复杂 的 交互 ， 包 括 对 处 理 器 生成 的 每 个 
地 址 的 硬件 翻译 。 其 基本 思想 是 把 一 个 进程 虚拟 存储 器 的 内 容 存 储 在 磁盘 上 ， 然 后 用 主 存 作 为 磁 
盘 的 高 速 缓存 。 第 9 章 将 解释 虚拟 存储 器 如 何 工作 ， 以 及 它 为 什么 对 现代 系统 的 运行 如 此 重要 。 
1.7.4 文件 

文件 就 是 字 节 序列 ， 仅 此 而 已 。 每 个 IO 设备 ， 包 括 磁 盘 、 键 盘 、 显 示 器 ， 甚 至 网 络 ， 都 可 
以 视 为 文件 。 系 统 中 的 所 有 输入 输出 都 是 通过 使 用 一 小 组 称 为 Unix. IO 的 系统 函数 调用 读 写 文 
件 来 实现 的 。 | : 

文件 这 个 简单 而 精致 的 概念 其 内 涵 是 非常 丰富 的 ， 因 为 它 向 应 用 程序 提供 了 一 个 统一 的 视 
角 ， 来 看 待 系统 中 可 能 含有 的 所 有 各 式 各 样 的 IO 设备。 例如， 处 理 磁盘 文件 内 容 的 应 用 程序 员 
非常 幸福 ， 因 为 他 们 无 需 了 解 具体 的 磁盘 技术 。 进一步 说 ， 同 一 个 程序 可 以 在 使 用 不 同 磁盘 技术 
的 不 同系 统 上 运行 。 第 10 章 将 介绍 Unix IO。 


Linux 项 目 
1991 年 8 月 ， 芬兰 研究 生 Linus Torvalds 说 慎 地 发 布 J 一 个 新 的 类 Unix 的 操作 系统 内 核 ， 
内 容 如 下 : 
来 自 : ‘torvalds@klaava. Helsinki.FI (Linus Benedict Rs 
-新闻 组 : comp. OS.minix 
主题 ; 在 minix 中 你 最 想 看 到 什么 
摘要 : 关于 我 的 新 操作 系统 的 小 
时 间 : 1991 年 8 月 25 日 20:57:08 格林 尼 治 时 间 
每 个 使 用 minix 的 朋友 ， 你 们 好 。 J : 
”我 正在 做 一 个 〈 和 免费 的 ) 用 在 386 (486) AT 上 的 操作 系统 (只 是 业余 爱好 ， 它 不 会 像 
GNU 那样 庞大 和 专业 )。 这 个 想法 从 4 月份 起 就 开始 酝酿 ， 现 在 快要 完成 了 。 我 希望 得 到 各 位 对 
minix 的 任何 反馈 意见 ， 因 为 我 的 操作 系统 在 某 些 方面 是 与 它 相 类 似 的 (其 中 包括 相同 的 文件 系 
” 统 的 物理 设计 (因为 某 些 实际 的 原因 ))。 - : : 
我 现在 已 经 移植 了 bash (1.08) 和 gcc (1.40)， 并 且 看 上 去 能 运行 。 这 意味 着 我 需要 用 几 个 
月 的 时 间 使 它 be 并 且 我 想 知 道 大 多 数 人 想 要 的 特性 。 欢 迎 提 出 任何 建议 ， 但 是 我 
无 法 保证 都 能 实现 。: - ) 
Linus (ale Glen helsinki.fi) 
接 下 来 ， 如 他 们 所 说 ， 这 就 成 为 了 历史 。Linux 逐渐 发 展 成 为 一 个 技术 和 文化 现象 。 通 过 结 
合 GNU 项 目的 力量 ，Linux 项 目 发 展 成 为 一 个 完整 的 、 符 合 Posix 标准 的 Unix 操作 系统 的 版 本 ， 
包括 内 核 和 所 有 支撑 的 基础 设施 。 从 手持 设备 到 大 型 计算 机 ，Linux 在 范围 如 此 广 汽 的 计算 机 上 
得 到 了 应 用 。 IBM 的 一 个 工作 组 其 至 把 Tinux 移植 到 7 了 一块 腕 衣 中 | 


1.8 系统 之 间 利用 网 络 通信 
. 系统 漫游 至 此 ， 我 们 一 直 是 把 系统 视 为 一 个 孤立 的 硬件 和 软件 的 集合 体 。 实 际 上 ， 现 代 系 
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统 经 常 通过 网 络 和 其 他 系统 连接 到 一 起 。 从 一 个 单独 的 系统 来 看 ， 网 络 可 视 为 一 个 IO 设备， 如 
图 1-14 所 示 。 当 系统 从 主 存 将 一 串 字 节 复制 到 网 络 适 配器 时 ， 数 据 流 经 过 网 络 到 达 另 一 台 机 器 ， 
而 不 是 其 他 地 方 ， 例 如 本 地 磁盘 驱动 器 。 相 似 地 ， 人 并 把 
数据 复制 到 目 己 的 主 存 。 


CPU 芯片 





0 






J 


z 图 1-14 网 络 也 是 一 种 IO 设备 





显示 器 





随 着 Internet 这 样 的 全 球 网 络 的 出 现 ， 将 一 台 主 机 的 信息 复制 到 另外 一 台 主 机 已 经 成 为 计算 
机 系统 最 重要 的 用 途 之 一 。 例 如 ， 电 子 邮件 、 即 时 通信 、 万 维 网 、FTP 和 telnet 这 样 的 应 用 都 是 
基于 网 络 复制 信息 的 功能 。 

继续 讨论 我 们 的 hello 示例， 我 们 可 以 使 用 熟悉 的 telnet 应 用 在 一 个 远程 主机 上 运行 
hello 程序 。 假 设 用 本 地 主机 上 的 telnet 客户 端 连接 远程 主机 上 的 telnet 服务 器 。 在 我 们 登录 到 
远程 主机 并 运行 外 过 后 ， 远 端的 外 壳 就 在 等 待 接收 输入 命令 。 从 这 点 开始 ， 远 程 运行 hello 程 
序 包括 《如 图 1-15 所 示 ) 的 五 个 基本 步骤 。 


”2 客户 端 向 telnet 服 务 器 


1 用 户 在 键盘 上 本 
输入 “hello” 0 3. 服务 器 向 外 这 发 送 字符 
2 “ / 本 地 telnet 有 远程 telnet \” 串 “hello” ， 外 壳 运 
人 客户 问 _A-------------------- 入、 服务 器 行 hel1o 程 序 并 将 输出 
ee 4 Teinet 服 务 器 向 客户 端 发 送 发送 给 elnet 服 务 角 
字符 串 字符 串 “hello world\n” | 


”图 1-15 利用 telnet 通过 网 络 远 程 运 行 hello 程序 


_ 当 我 们 在 ; telnet 客户 端 键 人 “hello” 字符 申 并 散 下 回 车 键 后 ， 客户 端 软件 就 会 将 这 个 字符 
申 发 送 到 telnet 的 服务 器 。telnet 服务 器 从 网 络 上 接收 到 这 个 字符 串 后 ， 会 把 它 传递 给 远 端 外 过 
程序 。 接 下 来 ， 远 端 外 壳 运 行 hel1o 程序 ， 并 将 输出 行 返回 给 telnet 服务 器 。 最 后 ，telnet 服务 
器 通过 网 络 把 输出 串 转发 给 telnet 客户 端 ， 客 户 端 就 将 输出 串 输 出 到 我 们 的 本 地 终端 上 。 : 

这 种 客户 端 和 服务 器 之 间 交 互 的 类 型 在 所 有 的 网 络 应 用 中 是 非常 典型 的 。 在 第 11 章 ， 你 将 
学 到 如 何 构造 网 络 应 用 程序 ， 并 利用 这 些 知识 创建 一 个 简单 的 Web 服务 器 。 


免 了 莫 矿 湖 态 关 纤 螺 洋 1 


1.9 重要 主题 

在 此 ， 总 结 一 下 我 们 旋风 式 的 系统 漫游 。 这 次 讨论 得 出 一 个 很 重要 的 观点 ， 那 就 是 系统 不 仅 
仅 只 是 硬件 。 系 统 是 硬件 和 系统 软件 互相 交织 的 集合 体 ， 它 们 必须 共同 协作 以 达到 运行 应 用 程序 
的 最 终 目 的 。 本 书 的 余下 部 分 会 计 还 三 件 和 软件 的 详细 内 容 ， 通 过 了 解 这 些 详细 内 容 ， 你 可 以 写 
出 更 快速 、 更 可 靠 和 更 安全 的 程序 。 

我 们 在 此 强调 几 个 贯穿 计算 机 系统 所 有 方面 的 重要 概念 作为 本 章 的 结束 。 我 们 还 会 在 本 书 中 
的 多 处 讨论 这 些 概 念 的 重要 性 。 
1.9.1 并 发 和 并 行 

数字 计算 机 的 整个 历 史 中 ， 有 两 个 需求 是 驱动 进步 的 持续 动力 : 一 个 是 我 们 想 要 计算 机 做 得 
更 多 ， 男 一 个 是 我 们 想 要 计算 机 运行 得 更 快 。 当 处 理 器 同时 能 够 做 更 多 事情 时 ， 这 两 个 因素 都 会 
改进 。 我 们 用 的 术语 并 发 《concurrency) 是 一 个 通用 的 概念 ， 指 一 个 同时 具有 多 个 活动 的 系统 ; 
而 术语 并 行 (parallelism) 指 的 是 用 并 发 使 一 个 系统 运行 得 更 快 。 并 行 可 以 在 计算 机 系统 的 多 个 
抽象 层次 上 运用 。 在 此 ， 我 们 按照 系统 层次 结构 中 由 高 到 低 的 顺序 重点 强调 三 个 层次 。 

1. 线程 级 并 发 

构建 进程 这 个 抽象 ， 我 们 能 够 设计 出 同时 执行 多 个 程序 的 系统 ， 这 就 导致 了 并 发 。 使 用 线 
程 ， 我 们 甚至 能 够 在 一 个 进程 中 执行 多 个 控制 流 。 从 20 世纪 60 年 代 初 期 出 现时 间 共 享 以 来 ， 计 
算 机 系统 中 就 开始 有 了 对 并 发 执行 的 支持 。 传 统 意义 上 ， 这 种 并 发 执行 只 是 模拟 出 来 的 ， 是 通 
过 使 一 台 计 算 机 在 它 正在 执行 的 进程 间 快 速 切换 的 方式 实现 的 ， 就 好 像 一 个 杂技 演员 保持 多 个 球 
在 空中 飞舞 。 这 种 并 发 形式 允许 多 个 用 户 同 时 与 系统 交互 ， 例 如 ， 当 许多 人 想 要 从 一 个 Web 服 
务 器 获取 页 面 时 。 它 还 允许 一 个 用 户 同时 从 事 多 个 任务 ， 例 如， 在 一 个 窗口 中 开启 Web 浏览 器 ， 
在 另 一 窗口 中 运行 字 处 理 器 ， 同 时 又 播放 音乐 。 在 以 前 ， 即使 处 理 器 必须 在 多 个 任务 问 切换 人 
多 数 实 际 的 计算 也 都 是 由 一 个 处 理 器 来 完成 的 。 这 种 配置 称 为 单 处 理 器 系统 。 

当 构 建 一 个 由 单 操作 系统 内 核 控制 的 多 处 理 器 
组 成 的 系统 时 ， 我 们 就 得 到 了 一 个 多 处 理 器 系统 。 
其 实 从 20 世纪 80 年 代 开 始 ， 在 大 规模 的 计算 中 就 
采用 了 这 种 系统 ， 但 是 直到 最 近 ， 随 着 多 核 处 理 器 
和 超 线 程 (hyperthreading) 的 出 现 ， 这 种 系统 才 恋 
得 常见 。 图 1-16 列 出 了 这 些 不 同 处 理 器 类 型 的 分 类 。 

多 核 处 理 器 是 将 多 个 CPU 称 为 “ 核 ”) 集 
成 到 一 个 集成 电路 营 刻 上 。 图 1-17 描述 的 是 Intel 。 图 1.16 不 同 的 处 理 器 配置 分 类 。 随 着 多 核 处 
Core 训 处 理 器 的 组 织 结构 ， 其 中 微 处 理 器 芯片 有 4 。 理 器 和 超 线 程 的 出 现 ， 多 处 理 器 变 得 普遍 了 
个 CPU 核 ， 每 个 核 都 有 自己 的 L1 和 12 高 速 缓存 ， 
但 是 它们 共享 更 高 层次 的 高 速 缓存 ， 以 及 到 主 存 的 接口 。 工 业界 的 专家 预言 他 们 能 够 将 几 十 个 、 
最 终 会 是 上 百 个 核 做 到 一 个 芯片 上 。 | a 

超 线程 ， 有 时 称 为 同时 多 线程 (simultaneous multi-threading)， 是 一 项 允许 一 个 CPU 执行 多 
个 控制 流 的 技术 。 它 涉及 CPU 某 些 硬件 有 多 个 备份 ， 比 如 程序 计数 器 和 寄存 器 文件 ; 而 其 他 的 
硬件 部 分 只 有 一 份 ， 比如 执行 浮 点 算术 运算 的 单元 。 常 规 的 处 理 器 需要 大 约 20 000 个 时 钟 周期 
做 不 同 线程 间 的 转换 ， 而 超 线程 的 处 理 器 可 以 在 单个 周期 的 基础 上 决定 要 执行 哪 一 个 线程 。 这 使 
得 CPU 能 够 更 好 地 利用 它 的 处 理 资源 。 例 如 ， 假 设 一 个 线程 必须 等 到 某 些 数据 被 装载 到 高 速 组 
存 中 ， 那 CPU 就 可 以 继续 去 执行 另 一 个 线程 。 举 例 来 说 ，Intel Core i7 处 理 器 可 以 让 一 个 核 执行 
两 个 线程 ， .所 以 下 个 4 核 的 系统 实际 上 可 以 并 行 地 执行 8 个 线程 


所 有 的 处 理 器 
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处 理 器 封装 包 


让 高 速 缓存 








图 1-17 Intel Core i 的 组 织 结构 。4 个 处 理 器 核 集成 到 一 个 芯片 上 


多 处 理 器 的 使 用 可 以 从 两 个 方面 提高 系统 性 能 。 首 先 ， 它 减少 了 在 执行 多 个 任务 时 模拟 并 发 
的 需要 。 正如 前 面 提 到 的 ， 即 使 是 只 有 一 个 用 户 使 用 的 个 人 计算 机 也 需要 并 发 地 执行 多 个 活动 。 
其 次 ， 它 可 以 使 应 用 程序 运行 得 更 快 。 当 然 ， 这 必须 要 求 程序 是 以 多 线程 方式 来 书写 的 ， 这 些 线 
程 可 以 并 行 地 高 效 执行 。 因 此 ， 虽然 并 发 原理 的 形成 和 研究 已 经 超过 50 年 的 时 间 了 ， 但 是 直到 
多 核 和 超 线程 系统 的 出 现 才 极 大 地 激发 了 人 们 的 一 种 愿望 ， 即 找到 书写 应 用 程序 的 方法 利用 硬件 
开发 线程 级 并 行 性 。 第 12 章 将 更 深入 地 探讨 并 发 ， 以 及 使 用 并 发 来 提供 处 理 器 资源 的 共享 ， 使 
得 程序 的 执行 多 许 有 更 多 的 并 行 

2. 指令 级 并 行 . 

在 较 低 的 抽象 层次 上 ， 现 代 处 理 器 可 以 同时 执行 多 条 指令 的 属性 称 为 指 人 令 级 并 行 。 早 期 的 微 
处 理 器 ， 如 1978 年 的 Intel 8086， 需 要 多 个 (通常 是 3 ~ 10 个 ) 时 钟 周期 来 执行 一 条 指令 。 比 
较 先 进 的 处 理 器 可 以 保持 每 个 时 钟 周期 2 ~ 4 条 指令 的 执行 速率 。 其 实 每 条 指令 从 开始 到 结束 需 
要 长 得 多 的 时 间 ， 大 约 20 个 或 者 更 多 的 周期 ， 但 是 处 理 器 使 用 了 非常 多 的 聪明 技巧 来 同时 处 理 
多 达 100 条 的 指令 。 在 第 4 章 ， 我 们 将 研究 流水 线 (pipelining) 的 使 用 。 在 流水 线 中 ， 将 执行 
一 条 指令 所 需要 的 活动 划分 成 不 同 的 步骤 ， 将 处 理 器 的 硬件 组 织 成 一 系列 的 阶段 ， 每 个 阶段 执行 
一 个 步骤 。 这 些 阶段 可 以 并 行 地 操作 ， 用 来 处 理 不 同 指令 的 不 同 部 分 。 我 们 会 看 到 一 个 相当 简单 
的 硬件 设计 ， 它 能 够 达到 接近 于 一 个 时 钟 周 期 一 条 指令 的 执行 速率 。 

如 果 处 理 器 可 以 达到 比 一 个 周期 一 条 指令 更 快 的 执行 速率 ， 就 称 之 为 超标 量 (superscalar) 
处 理 器 。 大 多 数 现代 处 理 器 都 支持 超标 量 操作 。 第 5 章 ， 将 介绍 超标 量 处 理 器 的 高 级 模型 。 应 用 
程序 员 可 以 用 这 个 模型 来 理解 他 们 程序 的 性 能 。 然后 ， 他 们 就 能 写 出 拥有 更 高 程度 的 指令 级 并 行 
性 的 程序 代码 ， 因 而 也 运行 得 更 快 。 , 

3. 单 指令 、 多 数据 并 行 

在 最 低层 次 上 ， 许多 现代 处 理 器 拥有 特殊 的 硬件 允许 一 条 指令 产生 多 个 可 以 并 行 执行 的 操 
作 ， 这 种 方式 称 为 单 指令 、 多 数据 ， 即 SIMD 并 行 。 例 如 ， 较 新 的 Intel 和 AMD 处 理 器 都 具有 
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并 行 地 对 4 对 单 精 度 浮 点 数 〈C 数据 类 型 float ) 做 加 法 的 指令 。 

提供 这 些 SIMD 指令 多 是 为 了 提高 处 理 影像 、 声音 和 视频 数据 应 用 的 执行 速度 ， 虽然 有 些 纺 
译 器 试图 从 C 程序 中 自动 抽取 SIMD 并 行 性 ， 但 是 更 可 靠 的 方法 是 使 用 编译 器 支持 的 特殊 向 量 
数据 类 型 来 写 程序 ， 例 如 GCC 就 支持 向 量 数 据 类 型 。 人 
在 网 络 旁 注 OPT:SIMD 中 描述 了 这 种 编程 方式 。 


1.9.2 计算 机 系统 中 抽象 的 重要 性 

抽象 的 使 用 是 计算 机 科学 中 最 为 重要 的 概念 之 一 。 例如， 为 一 组 函数 规定 一 个 简单 的 应 用 
程序 接口 (API) 就 是 一 个 很 好 的 编程 习惯 ， 程 序 员 无 需 了 解 它 内 部 的 工作 便 可 以 使 用 这 些 
代码 。 不 同 的 编程 语言 提供 不 同形 式 和 等 级 的 抽象 支持 ， 例如 Java 类 的 声明 和 C 语言 的 函 
数 原型 。 

我 们 已 经 介绍 了 计算 机 系统 中 使 用 的 几 个 抽象 ， 如 图 1-18 所 示 。 在 处 理 器 里 ， 指 人 令 集 结构 
提供 了 对 实际 处 理 器 硬件 的 抽象 。 使 用 这 个 抽象 ， 机 器 代码 程序 表现 得 就 好 像 它 是 运行 在 一 个 一 
次 只 执行 一 条 指令 的 处 理 器 上 。 底 层 的 硬件 比 抽象 描述 的 要 复杂 精细 得 多 ， 它 并 行 地 执行 多 条 指 
令 ， 但 又 总 是 与 那个 简单 有 序 的 模型 保持 一 致 。 只 要 执行 模型 一 样 ， 不 同 的 处 理 器 实现 也 能 执行 
同样 的 机 器 代码 ， 而 又 提供 不 同 的 开销 和 性 能 。 


指令 级 结构 虚拟 存储 器 


操作 系统 
图 1-18 计算 机 系统 提供 的 一 些 抽 条 
注 ， 计算 机 系统 中 的 一 个 重大 主题 就 是 提供 不 同 层 次 的 抽象 表示 ， 来 隐藏 实际 实现 的 复杂 性 。 


在 学 习 操作 系统 时 ， 我 们 介绍 了 三 个 抽象 : 文件 是 对 LO 的 抽象 ， 虚 拟 存 储 器 是 对 程序 存储 
器 的 抽象 ， 而 进程 是 对 一 个 正在 运行 的 程序 的 抽象 。 我 们 再 增加 一 个 新 的 抽象 : 虚拟 机 ， 它 提供 
对 整个 计算 机 (包括 操作 系统 、 处 理 器 和 程序 ) 的 抽象 。 虚 拟 机 的 思想 是 IBM 在 20 世纪 60 年 
代 提 出 来 的 ， 但 是 最 近 才 显示 出 其 管理 计算 机 方式 上 的 优势 ， 因 为 一 些 计算 机 必须 能 够 运行 为 不 
同 操作 系统 〈 例 如 ，Microsoft Windows、MacOS 和 Linux) 或 同一 操作 系统 的 不 同 版 本 而 设计 的 
程序 。 

在 本 书后 续 的 章节 中 ， 我 们 会 具体 介绍 这 些 抽象 。 


1.10 小结 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它 们 共同 协作 以 运行 应 用 程序 。 计 算 机 内 部 的 信息 
被 表示 为 一 组 组 的 位 ， 它 们 依据 上 下 文 有 不 同 的 解释 方式 。 程 序 被 其 他 程序 翻译 成 不 同 的 形式 ， 
开始 时 是 ASCII 文本 ， 然 后 被 编译 需 和 链接 器 翻译 成 二 进 制 可 执行 文件 。 

处 理 器 读 取 并 解释 存放 在 主 存 里 的 二 进 制 指令 。 因 为 计算 机 把 大 量 的 时 间 用 于 存储 器 、LO 
设备 和 CPU 寄存 器 之 间 复 制 数 据 ， 所 以 将 系统 中 的 存储 设备 中 
顶部 ， 接 着 是 多 层 的 硬件 高 速 缓存 存储 器 、DRAM 主 存 和 磁盘 存储 器 。 在 层次 模型 中 ， 位 于 更 
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高 层 的 存储 设备 比 低层 的 存储 设备 要 更 快 ， 单 位 比特 开销 也 更 高 。 层 次 结构 中 较 高 层次 存储 设备 
可 以 作为 较 低层 次 设备 的 高 速 缓存 。 通 过 理解 和 运用 这 种 存储 层次 结构 的 知识 ， 程 序 员 可 以 优化 
C 程序 的 性 能 。 

操作 系统 内 核 是 应 用 程序 和 硬件 之 间 的 媒介 。 它 提供 三 个 基本 的 抽象 : 1) 文件 是 对 VO 
设备 的 抽象 ; 2) 虚拟 存储 器 是 对 主 存 和 磁盘 的 抽象 ; 3) 进程 是 对 处 理 器 、 主 存 和 1/O 设备 的 
抽象 。 
最 后 ， 网 络 提供 了 计算 机 系统 之 间 通 信 的 手段 。 从 特殊 系统 的 角度 来 看 ， 网 络 就 是 一 种 JO 
设备 ， I : / 


参考 文献 说 明 


”Ritchie 写 了 关于 早期 C 和 Unix 的 有 趣 的 第 一 手 资料 [87，88]。Ritchie 和 Thompson 提供 了 
最 早出 版 的 Unix 资料 [89]。Silberschatz、Gavin 和 Gagne[98] 提供 了 关于 Unix 不 同 版 本 的 详尽 
历史 。 GNU (www.gnu.org) 和 Linux Cwww.linux. org) 的 网 站 上 有 大 量 的 当前 信 息 和 历史 资料 。 
Posix 标准 可 以 在 线 获得 (Www.unix.org )。 


入 
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程序 结构 和 执行 


”我 们 对 计算 机 系统 的 探索 是 从 学 习 计 算 机 本 身 开始 的 ， 它 由 处 理 器 和 
存储 器 子 系统 组 成 。 在 核心 部 分 ， 我 们 需要 方法 来 表示 基本 数据 类 型 ， 比 
如 整数 和 实数 运算 的 近似 值 。 然 后 ， 我 们 考虑 机 器 级 指令 如 何 操作 这 样 的 
数据 ， 以 及 编译 器 如 何 将 C 程序 翻译 成 这 样 的 指令 。 接 下 来 ， 研 究 几 种 实 

现 处 理 器 的 方法 ， 帮 助 我 们 更 好 地 了 解 硬 件 资源 是 如 何 被 用 来 执行 指令 。 
一 旦 理解 了 编译 器 和 机 器 级 代码 ， 我 们 就 能 通过 编写 最 高 性 能 的 C 程序 ， 
”来 分 析 如 何 最 大 化 程序 的 性 能 。 本 部 分 以 存储 器 子 系统 的 设计 作为 结束 ， 


“ 这 是 现代 计算 机 系统 最 复杂 的 部 分 之 一 。 


本 书 的 这 一 部 分 将 领 着 你 深入 了 解 如 何 表 示 和 执行 应 用 程序 。 你 将 学 
会 一 些 技 巧 ， 它 们 将 帮助 你 写 出 安全 、 可 靠 且 充分 利用 计算 资源 的 程序 。 
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信息 的 表示 和 处 理 





现代 计算 机 存储 和 处 理 的 信息 以 二 值 信号 表示 。 这 些微 不 足 道 的 二 进 制 数字 ， 或 者 称 为 位 
(bit)， 黄 定 了 数字 革命 的 基础 。 大 家 熟悉 并 且 使 用 了 1000 多 年 的 十 进 制 ( 以 十 为 基数 ) 起 源 于 
印度 ，12 世纪 被 阿拉 伯 数 学 家 改进 ， 并 在 13 世纪 被 意大利 数学 家 Leonardo Pisano (公元 1170 一 
1250， 更 为 大 家 所 熟知 的 名 字 是 Fibonacci) 带 到 西方 。 对 于 有 10 个 手指 的 人 类 来 说 ， 使 用 十 进 
制 表 示 法 是 很 自然 的 事情 ， 但 是 当 构 造 存储 和 处 理 信息 的 机 器 时 ， 二 进 制 的 值 工作 得 更 好 。 二 值 
言 号 能 够 很 容易 地 被 表示 、 存 储 和 传输 ， 例 好， 可 以 表示 为 穿孔 卡片 上 有 洞 或 无 洞 、 导 线 上 的 高 
电压 或 低 电 压 ， 或 者 顺 时 针 或 逆 时 针 的 磁场 。 对 二 值 信号 进行 存储 和 执行 计算 的 电子 电路 非常 简 
单 和 可 靠 ， 制造 商 能 够 在 一 个 单独 的 硅 片 上 集成 数 百 万 甚至 数 十 亿 个 这 样 的 电路 。 

孤立 地 讲 ， 单 个 的 位 不 是 非常 有 用 。 然 而 ， 当 把 位 组 合 在 一 起 ， 再 加 上 某 种 解释 
(interpretation)， 即 给 不 同 的 可 能 位 模式 赋予 含义 ， 我 们 就 能 够 表示 任何 有 限 集合 的 元 素 。 比 如 ， 
使 用 一 个 二 进 制 数字 系统 ， 我 们 能 够 用 位 组 来 编码 非 负 数 。 通 过 使 用 标准 的 字符 码 ， 我 们 能 够 对 
文档 中 的 字母 和 符号 进行 编码 。 在 本 章 中 ， 我 们 将 讨论 这 两 种 编码 ， 以 及 表示 负数 和 对 实数 近似 
值 的 编码 。 

我 们 研究 三 种 最 重要 的 数字 表示 。 无 符号 (unsigned) 编码 基于 传统 的 二 进 制 表示 法 ， 表 示 
大 于 或 者 等 于 零 的 数字 。 补 码 (two’ s-complement) 编码 是 表示 有 符号 整数 的 最 常见 的 方式 ， 有 
符号 整数 就 是 可 以 为 正 或 者 为 负 的 数字 。 浮 点 数 〈floating-point) 编码 是 表示 实数 的 科学 记 数 法 
的 以 二 为 基数 的 版 本 。 计算 机 用 这 些 不 同 的 表示 方法 实现 算术 运算 ， 例如 加 法 和 乘法 ， 类 似 于 对 
应 的 整数 和 实数 运算 。 

计算 机 的 表示 法 是 用 有 限 数量 的 位 来 对 一 个 数字 编码 ， 因此 ， 当 结果 太 大 以 至 不 能 表示 时 ， 
某 些 运算 就 会 溢出 (overflow)。 滥 出 会 导致 某 些 令 人 吃惊 的 后 果 。 例 如 ， 现 在 的 大 多 数 计算 机 
(使 用 32 位 来 表示 数据 类 型 int )， 计 算 表 达 式 200*300*400*500 会 得 出 结果 一 884 901 888。 
这 违背 了 整数 运算 的 特性 ， 计 算 一 组 正 数 的 乘积 不 应 产生 一 个 为 负 的 结果 。 z 

另 一 方面 ， 整 数 的 计算 机 运算 满足 人 们 所 熟知 的 真正 整数 运算 的 定律 。 例 如 ， 利 用 乘法 的 结 
合 律 和 交换 律 ， 计 算 下 面 任 何 一 个 C 表达 式 ， 都 会 得 出 结果 一 884 901 888 : 

(500*400)* (300*200) . / a | 

((500*400)*300)*200 


((200*500)*300)*400 
400* (200* (300*500)) 


计算 机 可 能 没有 产生 期 望 的 结果 ， 但 是 至 少 结果 是 一 致 的 ! 

浮 点 运算 有 完全 不 同 的 数学 属性 。 虽 然 洲 出 会 产生 特殊 的 值 + 2， 但 是 一 组 正 数 的 乘积 
总 是 正 的 。 由 于 表示 的 精度 有 限 ， 浮 点 运算 是 不 可 结合 的 。 例 如 ， 在 大 多 数 机 器 上 ，C 表达 式 
(3.14+1e20) -1e20 求 得 的 值 会 是 0.0， 而 3.14+ (1e20-1l1e20) 求 得 的 值 会 是 3.14。 整 数 
运算 和 浮 点 数 运 算 会 有 不 同 的 数学 属性 是 因为 它们 人 处 理 数 字 表 示 
示 虽 然 只 能 编码 一 个 相对 较 小 的 数值 范围 ， 但 是 这 种 表示 是 精确 的 ; 而 浮 点 数 虽然 可 以 编码 一 个 
较 大 的 数值 范围 ， 但 是 这 种 表示 只 是 近似 的 。 

通过 研究 数字 的 实际 表示 ， 我 们 能 够 理解 可 以 表示 的 值 的 范围 和 不 同 算术 运算 的 属性 。 为 了 
使 编写 的 程序 能 在 全 部 数值 范围 内 正确 工作 ， 而 且 具 有 可 以 跨越 不 同 机 器 、 操 作 系 统 和 编译 器 组 
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合 的 可 移植 性 ， 了 解 这 些 属性 是 非常 重要 的 。 后 面 我 们 会 讲 到 ， 大 量 计算 机 的 安全 漏洞 都 是 由 于 
计算 机 算术 运算 的 微妙 细节 引发 的 。 在 早期 ， 当 人 们 碰巧 触发 了 程序 漏洞 ， 只 会 给 大 们 带 来 一 些 
不 便 , 但 是 现在 ， 有 许多 的 黑客 企图 利用 他 们 能 找到 的 任何 漏洞 ， 不 经 过 授权 就 进入 他 人 的 系 
统 。 这 就 要 求 程序 员 有 更 多 的 责任 和 义务 ， 去 了 解 他 们 的 程序 如 何 工作 ， 以 及 如 何 被 迫 产生 不 良 
的 行为 。 

计算 机 用 几 种 不 同 的 二 进 制 表示 形式 来 编码 数值 。 第 3 章 随 着 进入 机 器 级 编程 ， 你 需要 熟悉 
这 些 表示 方式 。 在 本 章 中 ， 我 们 描述 这 些 编码 ， 并 且 教 你 如 何 推出 数字 的 表示 。 
通过 直接 操作 数字 的 位 级 表示 ， 我 们 得 到 了 几 种 进行 算术 运算 的 方式 。 理 解 这 些 技术 对 于 理 
解 编译 器 产生 的 机 器 级 代码 是 很 重要 的 ， 编 译 器 会 试图 优化 算术 表达 式 求 值 的 性 能 。 

我 们 对 这 部 分 内 容 的 处 理 是 基于 一 组 核心 的 数学 原理 的 。 我 们 从 编码 的 基本 定义 开始 ， 然 后 
得 出 一 些 属性 ， 例 如 可 表示 的 数字 的 范围 、 它 们 的 位 级 表示 以 及 算术 运算 的 属性 。 相 信 从 这 样 一 
个 抽象 的 观点 玉 分 析 这 些 内 容 ， 对 你 来 说 是 很 重要 的 | 因为 程序 员 需 要 对 计算 机 运算 与 更 为 人 熟 
悉 的 整数 和 实数 运算 之 间 的 关系 有 清晰 的 理解 。 


怎样 阅读 本 章 

如 果 你 觉得 等 式 和 公式 令 人 生 蜂 ， 不 要 让 它 阻止 你 学 习 本 境 的 内 容 1 为 了 内 容 的 完整 性 家 
们 提供 全 部 的 数学 概念 的 推导 ， 但 是 阅读 这 些 内 容 的 最 好 方法 是 在 你 首次 阅读 时 跳 过 这 些 推导 ，。 
但 是 ， 要 研究 我 们 提供 的 例题 ， 并 且 要 做 完 所 有 的 练习 题 。 ee 
认识 ， 并 且 练习 题 让 你 能 够 主动 学 习 ， 帮 助 你 理论 联系 实际 。 有 了 这 些 例题 和 练习 题 作 为 背景 和 
识 ， 再 回头 看 那些 推导 ， 你 会 发 现 理解 起 来 会 容易 许多 。 时， 计 放 必 ， 条 他 扩 了 高 中 代数 
识 的 人 都 具备 理解 这 些 内容 所 需要 的 数学 技能 。 


C++ 编程 语言 建立 在 C 语言 的 基础 之 上 ， 它 们 使 用 完全 相同 的 数字 表示 和 运算 。 本 章 中 关 
于 C 的 所 有 内 容 对 C++ 都 有 效 。 另 一 方面 ，Java 语言 创造 了 一 套 新 的 数字 表示 和 运算 标准 。 C 
标准 的 设计 允许 多 种 实现 方式 ， 而 Java 标准 在 数据 的 格式 和 编码 上 是 非常 精确 具体 的 。 本 章 中 
多 处 着 重 介绍 了 Java 支持 的 表示 和 运算 。 


“C 编程 语言 演变 人 -3 / i 

前 面 提 到 过 ，C 编程 语言 是 贝尔 实验 室 的 Dennis Ritchie 最 早 开 发 出 来 的 ， 目 的 是 和 Unix 操 
作 系 统一 起 使 用 (Unix 也 是 贝尔 实验 室 开发 的 )。: 在 那个 时 候 ， 大 多 数 系 统 程序 ， 例 如 操作 系 
统 ， 为 了 访问 不 同 数据 类 型 的 侈 级 表示 ， 都 必须 用 大 量 的 汇编 代码 编写 。 比 如 说 ， 像 malloc 
库 函 数 提 供 的 内 存 分 配 那 样 的 功能 ， 用 当时 的 其 他 高 级 语言 是 无 法 编写 的 。 

Brian Kemighan 和 Dennis Richie 的 著作 的 第 1 版 [57] 记录 了 最 初 贝尔 实验 室 的 C 语 言 
本 。 随 着 时 间 的 推移 ， 经 过 多 个 标准 化 组 织 的 努力 ， C 语 言 也 在 不 断 地 演变 。 1989 年 ， 美 国 国 
家 标准 学 会 下 的 一 个 工作 组 推出 了 ANSI C 标准 ， 对 最 初 的 贝尔 实验 室 的 C 语言 做 了 重大 修改 。 
ANSI C 与 贝尔 实验 室 的 C 有 了 很 大 的 不 同 ， 尤其 是 函数 声 明 的 方式 。Brian Kernighan 和 Dennis 
Richie 在 著作 的 第 2 版 [58] 人 开 ANSI Cc 0 然 被 公认 为 是 关于 C (sa 
考 寺 期 站 一 。 

国际 标准 化 组 级 接管 了 对 .C 语言 进行 标准 化 的 性 务 ， 在 1990 年 推出 了 几乎 和 ANSI C 一 样 
的 版 本 ， 称 为 “ISO C90”。 该 组 织 在 1999 年 又 对 C 语 言 做 了 更 新 ， 得 到 “ISO C99”, 这 一 版 
本 , .引入 了 一 些 新 的 数据 类 型 ， 对 使 用 不 符合 英语 语言 字符 的 文本 字符 事 提 供 了 支持 。 

-GNU 编译 器 套装 (GNU Compiler Collection，GCC) 可 以 基于 不 同 的 命令 行 选项 ， 依 照 多 
个 不 同 版 本 的 C 语言 规则 来 编译 程序 ， 如 图 2-1 所 示 。 例 如 ， 根 据 ISO C99 来 编译 程序 Prog.c， 
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我 们 就 使 用 命令 行 : 

unix> gece -Sta=c99 prog.c 

编译 选项 -ansi 和 -std= 
序 。(C90 有 时 也 称 为 “C89”， 因 为 它 的 标 准 化 工作 是 从 1989 年 开始 的 。) 编译 选项 -std=c99 
会 让 编译 器 按照 ISO C99 的 规则 进行 编译 。 

本 书 中 由 于 没有 指定 任何 编译 选项 ， 程 序 会 按照 基于 ISO C90 的 C 语言 版 本 进行 编译 ， 但 
是 又 包括 一 些 C99 的 特性 ， 一 些 C++ 的 特性 ， 还 有 一 些 是 与 GCC 相关 的 特性 。 可 以 显 式 地 用 编 
译 选 项 -std=gnu89 来 指定 这 个 ISO C90 版 本 。 GNU 项 目 正在 开发 一 个 和 告 合 了 ISO C99 和 其 他 
一 些 特性 的 版 本 ， 可 以 通过 命令 行 选项 -std=gnu99 来 指定 。( 目 前 ， 这 个 实现 还 未 完成 。) 以 
后 ， 这 个 版 本 会 成 为 默认 的 版 本 。 





1 信息 存储 
大 多 数 计算 机 使 用 8 位 的 块 ， 或 者 字 节 (byte )， 作为 
最 小 的 可 寻 址 的 存储 器 单位 ， 而 不 是 在 存储 器 中 访问 单独 
的 位 。 机 器 级 程序 将 存储 器 视 为 一 个 非常 大 的 字 节 数组 ， | 和 a 
称 为 庶 拟 存储 器 (virtual memory)。 存 储 器 的 每 个 字 节 都 由 | ro | en 
一 个 唯一 的 数字 来 标识 ， 称 为 它 的 地 址 (address)， 所 有 可 | Cjoo | 





能 地 址 的 集合 称 为 虚拟 地 址 空间 (virtual address space )。 顾 , 
名 思 义 ， 这 个 虚拟 地 址 空间 只 是 一 个 展现 给 机 器 级 程序 的 ” 图 1 门 GCC 指定 不 同 的 C 语 言 版 本 
概念 性 映像 。 实 际 的 实现 〈 见 第 9 章 ) 是 将 随机 访问 存储 器 (RAM)、 磁 盘存 储 器 、 特 殊 硬件 和 操作 
系统 软件 结合 起 来 ， 为 程序 提供 一 个 看 上 去 统一 的 字 节 数 组 。 

接 下 来 的 几 章 ， 我 们 将 讲述 编译 器 和 运行 时 系统 是 如 何 将 存储 器 空间 划分 为 更 可 管理 的 单 
元 ， 以 存放 不 同 的 程序 对 象 〔program object)， 即 程序 数据 、 指 令 和 控制 信息 。 可 以 用 各 种 机 制 
来 分 配 和 管理 程序 不 同 部 分 的 存储 。 这 种 管理 完全 是 在 虚拟 地 址 空间 里 完成 的 。 例 如 ，C 语言 中 
一 个 指针 的 值 (无 论 它 是 指向 一 个 整数 、 一 个 结构 或 是 某 个 其 他 程序 对 象 ) 都 是 某 个 存储 块 的 第 
一 个 字 节 的 虚拟 地 址 。C 编译 器 还 把 每 个 指针 和 类 型 信息 联系 起 来 ， 这 样 就 可 以 根据 指针 值 的 类 
型 ， 生 成 不 同 的 机 器 级 代码 来 访问 存储 在 指针 所 指向 位 置 处 的 值 。 尽 管 C 编译 器 维护 着 这 个 类 
型 信息 ， 但 是 它 生成 的 实际 机 器 级 程序 并 不 包含 关于 数据 关 型 的 信息 。 每 个 程序 对 象 可 以 简单 地 
视 为 一 个 字 节 块 ， 那 么 程序 本 身 就 是 一 个 字 节 序列 。 


给 C 语言 初学 者 : C 语言 中 指针 的 角色 

指针 是 C 语言 的 一 个 重要 特性 。 它 提供 了 引用 数据 结构 (包括 数组 ) 的 元 素 的 机 制 。 与 变 
量 类 似 ， 指 针 也 有 两 个 方面 : 值 和 类 型 。 它 的 值 表示 某 个 对 象 的 位 置 ， 而 它 的 类 型 表示 那个 位 置 
上 所 存储 对 象 的 类 型 《比如 整数 或 者 浮 点 数 )。 


2.1.1 十 六 进 制 表 示 法 ” : 

一 个 字 闻 由 8 位 组 成 。 在 二 进 制 表示 法 中 ， 它 的 值 域 是 00000000, ~ 11111111: ; 如 果 用 十 
进 制 整 数 表 示 ， 它 的 值 域 就 是 01。~ 2551。 两 种 表示 法 对 于 描述 位 模式 来 说 都 不 是 非常 方便 。 = 
进 制 表示 法 太 宛 长 ， 而 十 进 制 表示 法 与 位 模式 的 互相 转化 又 很 麻烦 。 替 代 的 方法 是 ， 以 16 为 基 
数 ， 或 者 叫 十 六 进 制 (hexadecimal) 数 ， 来 表示 位 模式 。 十 六 进 制 〈 简 写 为 “hex”) 使 用 数字 
0 一 9:， 以 及 字符 和 A- ~ 和 来 表示 16 个 可 能 的 值 。 图 2-2 展示 了 16 个 十 六 进 制 数字 
对 应 的 十 进 制 值 和 二 进 制 值 。 用 十 六 进 制 书写 ， 一 个 字 节 的 值 域 为 0016 ~ FFi6。 
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在 C 语 言 中 ， 以 0x 或 0X 开头 的 数字 常量 被 认为 是 十 六 进 制 的 值 。 字 符 和“A: 一 下: 既 可 以 
是 大 写 ， 也 可 以 是 小 写 ， 甚 至 是 大 小 写 混 合 。 人 例如， 我们 可 以 将 数字 FA1D37B,。 写作 0xFA1D37B， 
或 者 0xfald37b， 也 可 以 写作 0xFalD37b。 在 本 书 中 ， 我 们 将 使 用 C 表示 法 来 表示 十 六 进 制 值 。 
十 六 进 制 数字 5 I 2 3 I : 


十 进 制 值 0 1 2 3 4 5 
二 进 制 值 0000 0001 0010 0011 0100 0101 0110 . 0111 


十 六 进 制 数字 
十 进 制 值 9 10 11 12 13 14 15 
二 进 制 值 1001 1010 1011 1100 1101 1110 1111 


图 2-2 ”十 六 进 制 表示 法 。 每 个 十 六 进 制 数字 都 对 16 个 值 中 的 一 个 进行 了 编码 


编写 机 器 级 程序 的 一 个 常见 任务 就 是 在 位 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 表示 之 间 人 工 进 
行 转换 。 二 进 制 和 十 六 进 制 之 间 的 转换 比较 简单 直接 ， 因为 可 以 一 次 执行 行 一 个 十 六 进 制 数字 的 转 
换 。 数 字 的 转换 可 以 参考 如 图 2-2 所 示 的 表 。 一 个 简单 的 窍门 是 ， 记 住 十 六 进 制 数字 A、C 和 了 
相对 应 的 十 进 制 值 。 而 对 于 把 十 六 进 制 值 B、 D 和 王 转换 成 过 制 值 时 ， 则 可 以 通过 计算 它们 与 
前 三 个 值 的 相对 关系 来 完成 。 

比如 ， 假 设 给 你 一 个 数字 0x173A4C， 可 以 通过 展开 每 个 十 六 进 制 数 字 ， 将 它 转换 为 二 进 
制 格 式 ， 如 下 所 示 : 四 

十 六 进 制 1 3 “A 4 C 

二 进 制 0001 0111 0011 1010 0100 1100 | 
这 样 就 得 到 了 二 进 制 表示 000101110011101001001100。 

反 过 来 ， 如 果 给 定 一 个 二 进 制 数字 1111001010110110110011， 你 可 以 首先 把 它 分 为 每 4 位 一 
组 ， 再 把 它 转换 为 十 六 进 制 。 不 过 要 注意 ， 如 果 位 的 总 数 不 是 4 的 倍数 ， 最 左边 的 一 组 可 以 少 于 
4 位， 前 面 用 0 补足 ， 然 后 将 每 个 4 位 组 转换 为 相应 的 十 六 进 制 数字 : 

二 进 制 11 1100 1010 1101 1011 0011 
十 六 进 制 3 c A D B . 3 
了 引 练习 题 2.1 完成 下 列 数 字 转 换 : 

A. 将 0x39A7F8 转换 为 二 进 制 。 

- 了. 将 二 进 制 .1100100101111011 转换 为 十 六 进 制 。 

C. 将 0xD5E4C 转换 为 二 进 制 。 

D. 将 二 进 制 1001101110011110110101 转换 为 十 六 进 制 。 

当 值 x 是 2 的 非 负 整 数 n 次 罕 时 ， 也 就 是 x=2"， 我 们 可 以 很 容易 地 将 x 写成 十 六 进 制 形式 ， 

只 要 记 住 x 的 二 进 制 表示 就 是 1 后 面 跟 n 个 0。 十 六 进 制 数 字 0 代表 4 个 二 进 制 0。 所 以 ， 当 nn 表 
示 成 计 4 的 形式 ， 其 中 0 < i < 3 时 ， 我 们 可 以 把 x 写成 开头 的 十 六 进 制 数字 为 1 (i=0)、2 (i=1)、 
4 (i=2) 或 者 8 〈i=3)， 后 面 跟随 着 7 个 十 六 进 制 的 0。 比 如 ，x=2048=22， 我 们 有 m=11 = 3 + 
4X2， 从 而 得 到 十 六 进 制 表示 0x800。 
练习 题 2.2 填写 下 表 中 的 空白 项 ， 给 出 2 的 不 同 次 寡 的 二 进 制 和 十 六 进 制 表示 : 


| | 2 《十进制 | 2” (十 六 进 制 ) | 
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十 进 制 和 十 六 进 制 表示 之 间 的 转换 需要 使 用 乘法 或 者 除法 来 处 理 一 般 情 况 。 将 一 个 十 进 制 数 
字 x 转换 为 十 六 进 制 ， 可 以 反复 地 用 16 除 x， 得 到 一 个 商 g 和 一 个 余数 r+， 也 就 是 x=gX16+r。 
然后 ， 我 们 用 十 六 进 制 数 字 表 示 的 x 作为 最 低位 数字 ， 并 且 通 过 对 4 反复 进行 这 个 过 程 得 到 剩 下 
的 数字 。 例 如 ， 考 虑 十 进 制 314156 的 转换 : / : 
, 314156 = 19634X16+12 (C) 


19634 = 1227X16+2 (2) 
1227 = 76X16+11 (B) 
76 = 4X16+12 (CC) 
4=0X1l6+4 《141) 


从 这 里 ， 我 们 能 读 出 十 六 进 制 表示 为 0x4CB2C。 z 

”” 反 过 来 ， 将 一 个 十 六 进 制 数字 转换 为 十 进 制 数字 ， 我 们 可 以 用 相应 的 16 的 冤 乘 以 每 个 十 六 

进 制 数字 。 比 如 ， 给 定数 字 0x7AF， 我 们 计算 它 对 应 的 十 进 制 值 为 7X16?+10X16+15=7X256+ 

10X16+15=1792+160+15=1967。 a : 

号 汪 练 习题 2.3 ”一 个 字 节 可 以 用 两 个 十 六 进 制 数字 来 表示 。 盾 写 下 表 中 缺失 的 项 ， 给 出 不 同 字 节 模 式 的 
十 进 制 、 二 进 制 和 十 六 进 制 值 。 
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十 进 制 和 十 六 进 制 间 的 转换 
较 大 数值 的 十 进 制 和 十 六 进 制 之 间 的 转换 ， 最 好 是 让 计算 机 或 者 计算 器 来 完成 。 例 如 ， 下 面 
的 Perl 语言 脚本 将 (命令 行 给 出 的 ) 一 列 数字 从 十 进 制 转换 为 十 六 进 制 : 


一 ee —— bin/d2h 
1  #!/usr/local/bin/perl | : 
2 # Convert list of decimal numbers into hex 
4. for ($i = 0; $i «< @ARGV; $i++) { | 
5 printf("%dNt= 0Ox%xNn" ，$ARGV[L$i] , $ARGV[$i]); 

6 
bin/d2h 


一 旦 这 个 文件 被 设置 为 可 执行 的 ， 命 令 
unix> ./d2h 100 500 751 
会 产生 输出 : 
100=0x64 
500=0xl1f4 
751=0x2ef 
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类 似 地 ， 下 面 的 脚本 将 十 六 进 制 转换 为 十 进 制 : 
bin/h2d 


#!/usr/local/bin/perl 
# Convert list of hex numbers into decimal 


$val = hex($ARGV[$i]); 


1 

2 

3 

4 for ($i = 0; $i < @ARGV; $i++) { 

S 

6 printf ("Ox%x = %d\n", $val, $val); 
7 


} 
bin/h2d 


区 对 | 练习 题 2.4 不 将 数字 转换 为 十 进 制 或 者 二 进 制 ， 试 着 解答 下 面 的 算术 题 ， 管 案 要 用 十 六 进 制 表示 。 
提示 : 将 执行 十 进 制 加 法 和 减法 所 使 用 的 方法 改 成 以 16 为 基数 。 
A. 0x503c+0x8= 
B. 0x503c 一 0x40= 
C. 0x503c+64= 
D. 0x50ea-0x503c= 
2.1.2 学 

台 计 算 机 都 有 一 个 字 长 〈word size)， 指 明 整 数 和 指针 数据 的 标 称 大 小 〈nominal size)。 因 
为 虚拟 地 址 是 以 这 样 的 一 个 字 来 编码 的 ， 所 以 字 长 决定 的 最 重要 的 系统 参数 就 是 虚拟 地 址 空间 的 
最 大 大 小 。 也 就 是 说 ， 对 于 一 个 字 长 为 w I 言 ， a 0 2* oe 
访问 2" 个 字 布 。 ‘ 

今天 大 多 数 计 算 机 的 字 长 都 是 32 位。 这 就 限定 了 虚拟 地 址 空 间 为 4 千 兆 字 节 (写作 
4GB )， 也 就 是 说 ， 刚 刚 超 过 4X10 字 节 。 虽 然 对 大 多 数 应 用 而 言 ， 这 个 空间 足够 大 了 ， 但 是 
现在 已 经 有 许多 大 规模 的 科学 和 数据 库 应 用 需要 更 大 的 存储 。 因 此 ， 随 着 存储 器 价格 的 降低 ， 
字 长 为 64 位 的 高 端 机 器 正 逐 渐变 得 普遍 起 来 。 硬 件 价 格 随 着 时 间 降 低 ， 人 台式 机 和 笔记 本 电脑 
也 会 变 成 64 位 字 长 ， 所 以 我 们 会 考虑 w 位 字 长 的 通用 情况 ， 也 会 考虑 w=32 和 和 w=64 的 特殊 
情况 。 
2.1.3 数据 大 小 

计算 机 和 编译 器 支持 多 种 不 同方 式 编码 的 数字 格式 ， 如 整数 和 浮 点 数 ， 以 及 其 他 长 度 的 数 
字 。 比 如 ， 许 多 机 器 都 有 处 理 单 个 字 节 的 指令 ， 也 有 全 2 字 节 、4 字 节 或 者 8 字 节 整数 
的 指令 ， 还 有 些 指令 支持 表示 为 4 字 节 和 8 字 市 的 浮 点 数 。 

C 语言 支持 整数 和 浮 点 数 的 多 种 数据 格式 。C 的 数据 类 型 chiar 表示 一 个 单独 的 字 节 ， 尽管 
“charz” 是 由 于 它 被 用 来 存储 文本 串 中 的 单个 字符 这 一 事实 而 得 名 ， 但 它 也 能 用 来 存储 整数 值 。 
C 的 数据 类 型 int 之 前 还 能 加 上 限定 词 short、long， 以 及 最 近 的 16ong long， 以 提供 各 种 
大 小 的 整数 表示 。 图 2-3 展示 了 为 C 语言 中 不 同 数 据 类 型 分 配 的 字 节 数 。 准 确 的 字 节 数 依 赖 于 机 
器 和 编译 器 。 我 们 给 出 的 是 32 位 和 64 位 机 器 的 典型 值 。 可 以 观察 到 ,“ 短 ”整数 分 配 有 2 个 字 
节 ， 而 不 加 限定 的 int 为 4 个 字 节 。“ 长 ”整数 使 用 机 器 的 全 字 长 。ISO C99 引入 的 “长 长 ” 整 
数 数据 类 型 允许 64 位 整数 。 对 于 32 位 机 器 来 说 ， 人 
一 系列 32 位 操作 的 代码 。 

-图 2-3 给 出 了 指针 《〈 例 如 ， 一 个 被 声明 为 Sahar 类 型 的 变量 ) 使 用 机 器 的 全 字 长 大 多 
数 机 器 还 支持 两 种 不 同 的 浮 点 数 格式 : 单 精度 (在 C 9 ome 和 双 精 度 . (在 C 
double)。 局 式 分 别 使 用 4 字 节 和 8 人 
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图 2-3 C 语言 中 数字 数据 类 型 的 字 节 数 


给 C 语言 初学 者 : 声明 指针 
对 于 任何 数据 类 型 7， 声 明 
7 *p; 
表明 pp 是 一 个 指针 变量 ， 指 向 一 个 类 型 为 了 的 对 象 。 例 如 ， 
char *p; 


表示 将 一 个 指针 声明 为 指向 一 个 char 类 型 的 对 象 。 


程序 员 应 该 力图 使 他 们 的 程序 在 不 同 的 机 器 和 编译 器 上 是 可 移植 的 。 可 移植 性 的 一 个 方面 就 
是 使 程序 对 不 同 数据 类 型 的 确切 大 小 不 敏感 。C 语言 标准 对 不 同 数据 类 型 的 数字 范围 设置 了 下 界 
(这 点 在 后 面 还 将 讲 到 )， 但 是 却 没有 上 界 。 因 为 自 1980 年 以 来 32 位 机 器 一 直 是 标准 ， 许 多 程序 
的 编写 都 假设 为 图 2-3 中 列 出 的 32 位 机 器 对 应 的 字 节 分 配 。 随 着 64 位 机 器 的 日 益 普 及 ， 在 将 这 
些 程序 移植 到 新 机 器 上 时 ， 许 多 隐藏 的 对 字 长 的 依赖 性 就 会 显现 出 来 ， 成 为 错误 。 比 如 ， 许 多 程 
序 员 假 设 一 个 声明 为 int 类 型 的 程序 对 象 能 被 用 来 存储 一 个 指针 。 这 在 大 多 数 32 位 的 机 器 上 能 
正常 工作 ， 但 是 在 一 台 64 位 的 机 器 上 却 会 导致 问题 。 

2.1.4 寻 址 和 字 节 顺序 

对 于 天 越 多 学 书 的 程序 对 各， 我 们 应 须 建立 网 不 疝 则 。 这 不 虽 素 的 好 证 是 什么 ， 以 及 和 在 丰 
储 器 中 如 何 排 列 这 些 字 节 。 在 几乎 所 有 的 机 器 上 ， 多 字 节 对 象 都 被 存储 为 连续 的 字 节 序列 ， 对 
象 的 地 址 为 所 使 用 字 节 中 最 小 的 地 址 。 例 如 ， 假 设 一 个 类 型 为 int 的 变量 x 的 地 址 为 0x100， 
也 就 是 说 ， 地 址 表达 式 &x 的 值 为 0x100。 那 么 x 的 4 人 0x100、 
0x101、0x102 和 0x103 位 置 。 

排列 表示 一 个 对 象 的 字 节 有 两 个 通用 的 规则 。 考虑 一 个 w 位 的 整数 ， 位 表示 为 [x 
Xx,_2; “…，X1i， Xo]， 其 中 x 是 最 高 有 效 位 ， 而 xo 是 最 低 有 效 位 。 假 设 w 是 8 的 倍数 ， 这 些 位 
就 能 被 分 组 成 为 字 节 ， 其 中 最 高 有 效 字 节 包含 位 [x, 1，x,,。，…，xs]， 而 最 低 有 效 字 节 包含 位 
[xz7，x6，…，xXo]， 其 他 字 节 包含 中 间 的 位 。 某 些 机 器 选择 在 存储 器 中 按照 从 最 低 有 效 字 节 到 最 高 
有 效 字 节 的 顺序 存储 对 象 ， 而 另 一 些 机 器 则 按照 从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 存储 。 前 
一 种 规则 一 一 最 低 有 效 字 节 在 最 前 面 的 方式 ， 称 为 小 端 法 〈little endian)。 大 多 数 Intel 兼容 机 都 
采用 这 种 规则 。 后 一 种 规则 一 一 最 高 有 效 字 节 在 最 前 面 的 方式 ， 称 为 大 端 法 (big endian)。 大 多 
数 IBM 和 Sun Microsystems 的 机 器 都 采用 这 种 规则 。 注 意 我 们 说 的 是 “大 多 数 ”。 这 些 规则 并 没 
有 严格 按照 企业 界限 来 划分 。 比 如 ，IBM 和 Sun 制造 的 个 人 计算 机 使 用 的 是 Intel 兼容 的 处 理 器 ， 
因此 用 的 就 是 小 端 法 。 许多 比较 新 的 微 处 理 器 使 用 双 端 法 “bi-endian)， 也 就 是 说 可 以 把 它们 配 
置 成 作为 大 端 或 者 小 端的 机 器 运行 。 : 

继续 我 们 前 面 的 示例 ， 假设 变量 x 类 型 为 int， 位 于 地 址 0x100 处 ， 它 的 十 六 进 制 值 为 
0x01234567。 地 址 范围 为 0x100 ~ 0x103 的 字 节 ， 其 排列 顺序 依赖 于 机 器 的 类 型 。 
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注意 ， 在 字 0x01234567 中 ， 高 位 字 节 的 十 六 进 制 值 为 0x01， 而 低位 字 节 值 为 0x67。 

令 人 吃惊 的 是 ， 在 哪 种 字 节 顺序 是 合适 的 这 个 问题 上 ， 人 们 表现 得 非常 情绪 化 。 实际 上 ， 术 
语 “little endian”( 小 端 ) 和 “big endian”( 大 端 ) 出 自 Jonathan Swift 的 《 格 列 佛 游记 》(Gulliver”s 
Travels) 一 书 ， 其 中 交战 的 两 个 派别 无 法 就 应 该 从 哪 一 端 ( 小 端 还 是 大 端 ， 打 开 一 个 半熟 的 鸡蛋 达 
成 一 致 。 就 像 鸡蛋 的 问题 一 样 ， 没 有 技术 上 的 原因 来 选择 字 节 顺序 规则 ， 因 此 ， 争 论 沦 为 关于 社会 政 
治 问题 的 争论 。 只 要 选择 了 一 种 规则 并 且 始 终 如 一 地 坚持 ， 其 实 对 于 哪 种 字 节 排序 的 选择 都 是 任意 的 。 


“ 端 ”(endian) 的 起 源 

以 下 是 Jonathan Swift 在 1726 年 关于 大 小 问 之 争 历 史 的 描述 

ee 我 下 面 要 告诉 你 的 是 ，Lilliput 和 Blefuscu 这 两 大 强国 在 过 去 36 个 月 里 一 直 在 苦战 。 
战争 开始 是 由 于 以 下 的 原因 : 我 们 大 家 都 认为 ， 吃 鸡蛋 前 ， 原 始 的 方法 是 打破 鸡蛋 较 大 的 一 病 ， 
可 是 当今 皇帝 的 祖父 小 时 候 吃 鸡蛋 ， 一 次 按 古 法 打 鸡 走时 碰巧 将 一 个 手指 弄 破 了 ， 因 此 他 的 父 
亲 ， 当 时 的 皇帝 ， 就 下 了 一 道 救 念 ， 命 令 金 体 臣 民 吃 鸡蛋 时 打破 鸡蛋 较 小 的 一 端 ， 违 令 者 重 罚 。 
老百姓 们 对 这 项 命令 极为 反感 。 历 史 告 诉 我 们 ， 由 此 曾 发 生 过 6 次 叛乱 ， 其 中 一 个 皇帝 送 了 命 ， 
另 一 个 丢 了 王位 。 这 些 产 乱 大 多 都 是 由 了 Blefuscu 的 国王 大 臣 们 炉 动 起 来 的 。 叛 乱 平 息 后 ， 流 亡 
的 人 总 是 逃 到 那个 帝国 去 寻 救 避难 。 据 估计 ， 先 后 几 次 有 11 000 人 情愿 受 死 也 不 肯 去 打破 鸡蛋 
较 小 的 一 端 。 关 于 这 一 争议 ， 曾 出 版 过 几 百 本 大 部 著作 ， 不 过 大 端 派 的 书 一 直 是 受 禁 的 ， 法 律 也 
规定 该 派 的 任何 人 不 得 做 官 。”( 此 段 译文 摘自 网 上 蒋 剑 锋 译 的 《 格 列 佛 游记 》 第 一 着 第 4 章 。) 

在 他 那个 时 代 ，Swift 是 在 讽刺 英国 《Lilliput) 和 法 国 (Blefuscu) 之 间 持 续 的 冲突 。Danny 
Cohen, 一 位 网 络 协议 的 早期 开创 者 ， 第 一 次 使 用 这 两 个 术语 来 指 代 字 节 顺 序 [25]， 后 来 这 个 术 
语 被 广泛 接纳 了 。 


对 于 大 多 数 应 用 程序 员 来 说 ， 他 们 机 器 所 使 用 的 字 节 顺序 是 完全 不 可 见 的 ， 无 论 为 哪 种 类 型 的 
机 器 编译 的 程序 都 会 得 到 同样 的 结果 。 不 过 有 了 时候 ， 字 节 顺 序 会 成 为 问题 。 首 先是 在 不 同类 型 的 机 
器 之 间 通 过 网 络 传送 二 进 制 数据 时 ， 一 个 常见 的 问题 是 当 小 端 法 机 器 产生 的 数据 被 发 送 到 大 端 法 机 
器 或 者 反方 向 发 送 时 会 发 现 ， 接 收 程序 字 里 的 字 节 成 了 反 序 的 。 为 了 避免 这 类 问题 ， 网 络 应 用 程序 
的 代码 编写 必须 遵守 已 建立 的 关于 字 节 顺序 的 规则 ， 以 确保 发 送 方 机 器 将 它 的 内 部 表示 转换 成 网 络 
标准 ， 而 接收 方 机 器 则 将 网 络 标 准 转换 为 它 的 内 部 表示 。 我 们 将 在 第 11 章 中 看 到 这 种 转换 的 例子 。 
”第 二 种 情况 是 ， 当 阅读 表示 整数 数据 的 字 节 序列 时 字 节 顺序 也 很 重要 。 通 常 在 检查 机 器 级 程 
序 时 会 出 现 这 种 情况 。 举 一 个 示例 ， 从 某 个 文件 中 摘出 了 下 面 这 行 代 码 ， 该 文件 给 出 了 一 个 针对 
Intel IA32 处 理 器 的 机 器 级 代码 的 文本 表示 : 


80483bd: 01 05 64 94 04 08 add Seax, Ox8049464 


这 一 行 是 由 反 汇 编 器 (disassembler) 生成 的 ， 反 汇编 器 是 一 种 确定 可 执行 程序 文件 所 表示 的 指 
令 序 列 的 工具 。 我 们 将 在 第 3 章 学 习 有 关 这 些 工具 的 更 多 知识 ， 以 及 怎样 解释 像 这 样 的 行 。 现 
在 ， 我 们 只 需 注意 这 行 表述 了 十 六 进 制 字 节 串 01 05 64 94 04 08 是 一 条 指令 的 字 节 级 表 
示 ， 这 条 指令 把 一 个 字 长 的 数据 加 到 存储 在 主 存 地 址 0x8049464 的 值 上 。 如 果 取 出 这 个 序列 的 
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后 4 个 字 节 : 64 94 04 08， 按照 相反 的 顺序 写 出 ， 我 们 得 到 08 04 94 64。 去 掉 开头 的 0 
得 到 值 0x8049464， 这 就 是 右边 的 数值 。 当 阅读 此 类 小 端 法 机 器 生成 的 机 器 级 程序 表示 时 ， 经 
常会 将 字 节 按照 相反 的 顺序 显示 。 书 写字 节 序列 的 自然 方式 是 最 低位 字 节 在 左边 ， 而 最 高 位 字 节 
在 右边 ， 这 正好 和 通常 书写 数字 时 最 高 有 效 位 在 左边 ， 最 低 有 效 位 在 右边 的 方式 相反 。 

字 节 顺序 变 得 可 见 的 第 三 种 情况 是 当 编 写 规 避 正 常 的 类 型 系统 的 程序 时 。 在 C 语言 中 ， 可 
以 使 用 强制 类 型 转换 〈cast) 来 允许 以 一 种 数据 类 型 引用 一 个 对 象 ， 而 这 种 数据 类 型 与 创建 这 个 
对 象 时 定义 的 数据 类 型 不 同 。 大 多 数 应 用 编程 都 强烈 不 推荐 这 种 编码 技巧 ， 但 是 它们 对 系统 级 编 
程 来 说 是 非常 有 用 ， 甚 至 是 必需 的 。 

图 2-4 展示 了 一 段 C 代码 ， 它 使 用 强制 类 型 转换 来 访问 和 打印 不 同 程序 对 象 的 字 节 表示 。 我 
们 用 typedef 将 数据 类 型 byte pointer 和 定义 为 一 个 指向 类 型 为 “unsigned char” 的 对 
象 的 指针 。 这 样 一 个 字 节 指针 引用 一 个 字 节 序列 ， 其 中 每 个 字 市 都 被 认为 是 一 个 非 负 整数 。 第 一 
个 例 程 show_bytes 的 输入 是 一 个 字 节 序列 的 地 址 ， 它 用 一 个 字 节 指针 以 及 一 个 字 节 数 来 指示 。 
show_bytes 打印 出 每 个 以 十 六 进 制 表示 的 字 节 。C 格式 化 指令 “% .2x” 表 明 整 数 必须 用 至 少 
两 个 数字 的 十 六 进 制 格式 输出 。 


#include <stdio.h> 
typedef unsigned char *byte_pointer; 


void show ee start, int len) { 
int i; 
for (i = 0; i < len; i++) 
printf(" %.2x", start[i]); 
printf ("\n"); | 
} 


void show_int(int x) { 
show_bytes((byte_pointer) &x, sizeof (int)); 


14 } 


void show_float(float x) 
show_bytes((byte_pointer) &x, sizeof (float)); 
} 


void show_pointer(void *x) { 
show_bytes((byte_pointer) &x, sizeof(void 2 





} | 
图 2-4 打印 程序 对 象 的 字 节 表示 这 段 代码 使 用 强制 关 型 转换 来 避 关 型 系 统 ， 
很 容易 定义 针对 其 他 数据 类 型 的 类 似 函 数 

给 C 语言 初学 者 : 使 用 typedef 命名 数据 类 型 

C 语言 中 的 typedef 声明 提供 了 一 种 给 数据 类 型 命名 的 方式 。 这 能 够 极 大 地 改善 代码 的 可 
读 性 ， 因 为 深度 性 套 的 类 型 声明 很 难 读 懂 。 

typedef 的 语法 与 声明 变量 的 语法 十 分 相似 ， 除 了 它 使 用 的 是 类 型 名 ， 而 不 是 变量 名 。 因 此 ， 
图 2-4 中 byte pointer 的 声明 和 将 一 个 变量 声明 为 类 型 “unsigned char*” 有 相同 的 形式 。 

例如 ， 上 声明 : 

typedef int *int pointer; 

int_ pointer ip; | | 
将 类 型 “int pointer” 定义 为 一 个 指 向 int 的 指针 ， 并 且 声 明 7 一 个 这 种 类 型 的 变量 ip。 
我 们 还 可 以 将 这 个 变量 直接 声明 为 : 
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‘int *ip; 
给 C 语言 初学 者 : 使 用 printf 格式 化 输出 
PrintE 函数 (还 有 和 它 的 同类 D7 Ee 和 sprintf) 提供 了 一 种 打印 信息 的 方式 ， 这 种 
方式 对 格式 化 细节 有 相当 大 的 控制 能 力 。 第 一 个 参数 是 格式 事 (format string), 而 其 余 的 
参数 都 是 要 打印 的 值 。 在 格式 囊 里 ， 每 个 以 '%' 开始 的 字符 序列 都 表示 如 何 格式 化 下 一 个 参数 。 
典型 的 示例 有 : '%d' 是 输出 一 个 十 进 制 整 数 ，'%$f' 是 输出 一 个 浮 点 数 ， 而 '%c' 是 输出 一 个 
字符 ， 其 编码 由 参数 给 出 。 


给 C 语言 初学 者 : 指针 和 数组 

在 画 数 show_bytes (图 2-4) 中 ， 我 们 看 到 指针 和 数组 之 间 紧 密 的 联系 ， 这 将 在 3.8 节 中 
详细 描述 。 这 个 函数 有 一 个 类 型 为 byte_pointer (被 定义 为 一 个 指向 unsigned cha 的 
指针 ) 的 参数 start， 但 是 我 们 在 第 8 行 上 看 到 数组 引用 start [il。 在 C 语 言 中 ， 我 们 能 够 
用 数组 表示 法 来 引用 指针 ， 同 时 我 们 也 能 用 指针 表示 法 来 引用 数组 元 素 。 在 这 个 例子 中 ， 引 用 
start [i] 表示 我 们 想 要 读 取 以 start 指向 的 位 置 为 起 始 的 第 i 个 位 置 处 的 字 节 


过 程 show_ int、show float 和 show_pointer 展示 了 如 何 使 用 程序 show bytes 来 
分 别 输 出 类 型 为 int、float 和 void * 的 C 程 序 对 象 的 字 节 表示 。 可 以 观察 到 它们 仪 仅 传递 
给 show_bytes 一 个 指向 它们 参数 x 的 指针 &x， 且 这 个 指针 被 强制 类 型 转换 为 “unsigned 
char *x”。 这 种 强制 类 型 转换 告诉 编译 器 ， 程 序 应 该 把 这 个 指针 看 成 指向 一 个 字 节 序列 ， 而 不 
是 指向 一 个 原始 数据 类 型 的 对 象 。 然 后 ， 这 个 指针 会 被 看 成 是 对 象 使 用 的 最 低 字 节 地 址 。 


给 C 语言 初学 者 : 指针 的 创建 和 间接 引用 

在 图 2-4 的 第 13、17 和 21 行 ， 我 们 看 到 对 C 和 C++ 中 两 种 独 有 操作 的 使 用 。C 的 “ 取 地 址 ” 
运算 符 & 创建 一 个 指针 。 在 这 三 行 中 ， 表 达 式 &x 创建 了 一 个 指向 保存 变量 x 的 位 置 的 指针 。 这 
个 指针 的 类 型 取决 于 x 的 类 型 ， 因 此 这 三 个 指针 的 类 型 分 别 为 jnt*、float* 和 voidx*。( 数 
据 类 型 void* 是 一 种 特殊 类 型 的 指针 ， 没 有 相关 联 的 类 型 信息 。) 

强制 类 型 转换 运算 符 可 以 将 一 种 数据 类 型 转换 为 另 一 种 。 因 此 ， 强制 类 型 转换 (byte 
pointer) &x 表明 无 论 指 针 &x 以 前 是 什么 类 型 ， 它 现在 就 是 一 个 指向 数据 类 型 为 unsigned 
char 的 指针 。 这 里 给 出 0 se ea We i i 
数据 类 型 来 看 竺 被 指向 的 数据 。 


这 些 过 程 使 用 C 语言 言 的 运算 符 sizeof 来 确定 对 象 使 用 的 字 节 数 。 一 般 来 说 ， 表达 式 
sizeof (T) 返回 存储 一 个 类 型 为 了 的 对 象 所 需要 的 字 节 数 。 使 用 sizeof, 而 不 是 一 个 固定 的 
值 ， 是 加 编写 在 不 同 机 器 类 型 上 可 移植 的 代码 迈进 了 一 步 。 

在 几 种 不 同 的 机 器 上 运行 如 图 2-5 所 示 的 代码 ， 得 到 如 图 2-6 所 示 的 结果 。 我 们 分 别 使 用 了 
以 下 几 种 机 器 : 

Linux 32 : 运行 Linux 的 Intel IA32 处 理 器 

Windows : 运行 Windows 的 Intel IA32 

Sun : 运行 Solaris 的 Sun Microsystems SPARC 处 理 器 

Linux 64 : 运行 Linux 的 Intel x86-64 处 理 器 

参数 12 345 的 十 六 进 制 表示 为 0x00003039。 对 于 int 类 型 的 数据 ， 除 了 字 节 顺序 以 外 ， 
我 们 在 所 有 机 器 上 都 得 到 相同 的 结果 。 特 别 地 ， 我 们 可 以 看 到 在 Linux 32、Windows 和 Linux 64 
上 ， 最 低 有 效 字 市 值 0x39 最 先 输 出 ， 这 说 明 它 们 是 小 端 法 机 器 ; 而 在 Sun 上 却 最 后 输出 ， 这 说 
明 Sun 是 大 端 法 机 器 。 同 样 地 ，float 数据 的 字 节 ， 除 了 字 节 顺序 以 外 ， 也 都 是 相同 的 。 另 一 方 
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面 ， 指 针 值 却 是 完全 不 同 的 。 不 同 的 机 器 / 操作 系统 配置 使 用 不 同 的 存储 分 配 规则 。 一 个 值得 注 
意 的 特性 是 Linux 32、Windows 和 Sun 的 机 器 使 用 4 字 节 地 址 ， 而 Linux 64 使 用 8 字 节 地 址 。 


code/data/show- WA C 
1 void test_show_bytes(int val) { 
2 int ival = Val; 
3 float fval = (float) ival; 
4 int *pval = &ival; 
5 show_int (ival); 
6 show_float (fval); 
7 show_pointer (pval); 
8 


code/data/show-bytes.c : 
图 2-5 字 节 表示 的 示例 。 这 段 代码 打印 示例 数据 对 象 的 字 节 表示 


I i 70D 


Linux 32 3930 00 00 
Windows i 39 30 00 00 
Sun 1 00003039 
Linux 64 i 39 30 00 00 


Linux 32 
Windows 
Sun 


Linux 64 


12 345.0 
12 345.0 
12 345.0 
12 345.0 


00 e4 40 46 
00 e4 40 46 
46 40 e4 00 
00 e4 40 46 


Linux 32 i int : e4 f9 ff bf 
Windows i | int;i b4cc2200 | 
Sun iv i ef ff fa0c 
Linux 64 i int* | b811e5f£fff7f0000 





图 2-6 不 同 数据 值 的 字 节 表示 。 除 了 字 节 顺序 以 外 ，int 和 float 的 结果 是 一 样 的 。 指 针 值 与 机 器 相关 


可 以 观察 到 ， 尽 管 浮 点 型 和 整 型 数据 都 是 对 数值 12 345 编码 ， 但 是 它们 有 非常 不 同 的 字 节 
模式 : 整 型 为 0x&00003039， 而 浮 点 数 为 0x4640E400。 一 般 而 言 ， 这 两 种 格式 使 用 不 同 的 编 
码 方法 。 如 果 我 们 将 这 些 十 六 进 制 模式 扩展 为 一 进 制 形式 ， 并 且 适 当地 将 它 们 移 位 ， 我 们 就 会 发 
现 一 个 有 13 个 相 匹配 的 位 的 序列 ， 用 一 串 星 号 标识 出 来 : 


0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
米 冰冰 冰冰 六 冰冰 冰冰 冰 闵 冰 
4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


这 并 不 是 巧合 ， 当 我 们 研究 点 数 格 式 时 还 将 再 加 到 这 个 例子 。 
腕 双 练习 题 2.5 ”思考 下 面 对 show ves N= 三 次 调用 : 
.int val= ye : 
byte pointer valp= (byte_pointer) gval; 
show _ bytes (valp, 1);/* A.*/ 





务 2 葛 俗 息 失 变 示 和 处理。 31 


show bytes (valp, 2);/* B.*/ 
show bytes(valp, 3);/* C.*/ 
指出 在 小 端 法 机 器 和 大 端 法 机 器 上 ， 每 次 调用 的 输出 值 。 


A. 小 端 法 : 大 端 法 : 
B. 小 端 法 : 大 端 法 : 
C. 小 端 法 : 大 端 法 : 





zy 练习 题 2.6 ”使 用 show_int 和 show float， 我 们 确定 整数 3510593 的 十 六 进 制 表示 为 0x00359141， 

而 浮 点 数 3510593.0 的 十 六 进 制 表示 为 0x4A564504。 

A. 写 出 这 两 个 十 六 进 制 值 的 二 进 制 表示 。 

B. 移动 这 两 个 二 进 制 串 的 相对 位 置 ， 使 得 它们 相 匹 配 的 位 数 最 多 。 有 多 少 位 相 匹配 呢 ? 
” ””C. 串 中 的 什么 部 分 不 相 匹 配 ? 
2.1.5 ”表示 字符 串 

C 语言 中 字符 串 被 编码 为 一 个 以 null (其 值 为 0) 字符 结尾 的 字符 数组 。 每 个 字符 都 由 某 个 

标准 编码 来 表示 ， 最 常见 的 是 ASCII 字符 码 。 因 此 ， 如 果 我 们 以 参数 “12345” 和 6 (包括 终止 
符 ) 来 运行 例 程 show_bytes， 我 们 得 到 结果 31 32 33 34 35 00。 请 注意 ， 十 进 制 数字 x 
的 ASCII 码 正 好 是 0x3x， 而 终止 字 节 的 十 六 进 制 表示 为 0x00。 在 使 用 ASCII 码 作为 字符 码 的 
任何 系统 上 都 将 得 到 相同 的 结果 ， 与 字 节 顺序 和 字 大 小 规则 无 关 。 因而 ， 文 本 数据 比 二 进 制 数据 
具有 更 强 的 平台 独立 性 。 


生成 一 张 ASCI 表 
通过 执行 命令 man ascii, 你 可 以 得 到 一 张 ASCII 字符 码 的 表 。 
月 练习 题 2.7 ”下面 对 show_bytes 的 调用 将 输出 什么 结果 ? 


const char *s = "abcdef"; 
show bytes( a _pointer) s, strlen(s)); 


. 注意 字母 ‘a” ~ ‘z” 的 ASCII 码 为 0x61 ~ 0x7R。 


文字 编码 的 Unicode 标准 

ASCII 字符 集 适 合 于 编码 英语 文档 ， 但 是 在 表达 一 些 特殊 字符 方面 却 没有 太 多 办 法 ， 它 完全 
不 运 合 编码 布 腊 语 、 俄 语 和 中 文 这 样 语言 的 文档 。 近 ' 几 年 ， 开 发 出 很 多 方法 来 对 不 同 语言 的 文字 
编码 。Unicode 联合 会 《Unicode Consortium) 修订 了 最 复杂 且 最 普遍 接受 的 文字 编码 标准 。 当 前 
te se tn Wt ai, 支持 的 语言 范围 广 ， 从 阿尔 巴 尼 亚 语 
到 Xamtanga (埃塞俄比亚 Xamir 人 所 说 的 语言 )。 

基本 编码 ， 也 称 为 Unicode 的 “统一 字符 集 ” 使 用 32 位 来 表示 字符 。 这 好 像 是 要 求 文本 
串 中 每 个 字符 要 占用 4 个 字 节 。 不 过 ， 可 以 用 一 些 替代 编码 ， 常 见 的 字符 只 需要 1 个 或 2 个 字 
节 ， 而 不 太 常用 的 字符 需要 多 一 些 的 字 节 数 。 特别 地 ，UTF-8 表示 将 每 个 字符 编码 为 一 个 字 节 序 
列 ， 这 样 标准 ASCI 字符 还 是 使 用 和 它们 在 ASCIL 中 一 样 的 单字 节 编码 ， 这 也 就 意味 着 所 有 的 
ASCII 字 节 序列 用 ASCII 码 表示 和 用 UTF-8 表示 是 一 样 的 。 

Java 编程 语言 使 用 Unicode 来 表示 字符 串 。 对 于 C 语言 言 也 有 支持 Unicode 的 程序 库 。 
2.1.6 ”表示 代码 

考虑 下 面 的 C 函数 : 





1 int sum(int x, int y) { 
2 return x + y; 


3 
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当 我 们 在 示例 机 器 上 编译 时 ， 生 成 如 下 字 节 表示 的 机 器 代码 : 
Linux 32: 55 89 e5 8b 45 0c 03 45 08 c9 c3 

Windows: 55 89 e5 8b 45 0c 03 45 08 5d c3 

Sun: 81 c3 e0 08 90 02 00 09 

Linux 64: 55 48 89 e5 89 7d fc 89 75 f8 03 45 fc c9 c3 


我 们 发 现 指令 编码 是 不 同 的 。 不 同 的 机 器 类 型 使 用 不 同 的 且 不 兼容 的 指令 和 编码 方式 。 即使 是 完 
全 一 样 的 进程 运行 在 不 同 的 操作 系统 上 也 会 有 不 同 的 编码 规则 ， 天 二 二 得 人民 克 是个 关 从 的 。 
进 制 代码 很 少 能 在 不 同 机 器 和 操作 系统 组 合 之 间 移 植 。 

计算 机 系统 的 一 个 基本 概念 就 是 从 机 器 的 角度 来 看 ， 程 序 仅仅 只 是 字 节 序 列 。 机 器 没有 关于 
初始 源 程序 的 任何 信息 ， 除 了 可 能 有 些 用 来 帮助 调试 的 辅助 表 以 外 。 在 第 3 章 学 习 机 器 级 编程 
时 ， 我 们 将 更 清楚 地 理解 这 一 点 。 
2. 1.7 布尔 代数 简介 a | 

二 进 制 值 是 计算 机 编码 、 存储 和 操作 信 息 的 核心 ， 所 以 围绕 数值 0 和 1 的 研究 已 经 演化 出 了 
丰富 的 数学 知识 体系 。 这 起 源 于 1850 年 前 后 乔治 .布尔 (George Boole，1815 一 1864) 的 工作 ， 
因此 也 称 为 布 尔 代数 《Bool algebra)。 布 尔 注 意 到 通过 将 逻辑 值 TRUE ( 真 ) 和 FALSE ( 假 ) 编 
码 为 二 进 制 值 1 和 0， 能够 设计 出 一 种 代数 ， 以 研究 逻辑 推理 的 基本 原则 。 

最 简单 的 布尔 代数 是 在 二 元 集合 {0，1} 基础 上 的 定义 。 图 2-7 定义 了 这 种 布尔 代数 中 的 几 
种 运算 。 我 们 用 来 表示 这 些 运 算 的 符号 是 和 C 语言 的 位 级 运算 使 用 的 符号 相 匹 配 的 ， 这 些 将 在 
后 面 讨论 到 。 布 尔 运算 ”对 应 于 逻辑 运算 NOT， 在 命题 逻辑 中 用 符号 一 表示 。 也 就 是 说 ， 当 P 
不 是 真 的 时 候 ， 我 们 就 说 一 P 是 真 的 ， 反 之 亦 然 。 相 应 地 ， 当 P 了 等 于 0 时 ，"P 等 于 1， 反 之 亦 
然 。 布 尔 运 算 & 对 应 于 逻辑 运算 AND， 在 命题 逻辑 中 用 符号 人 表示 。 当 己 和 都 为 真 时 ， 我 们 说 
PA 0 为 真 。 相 应 地 ， 只 有 当 p=1 且 4=1 时 ，p&d 才 等 于 1。 布尔 运算 | 对 应 于 逻辑 运算 OR， 在 
命题 逻辑 中 用 符号 V 表 示 。 当 书 或 者 0 为 真 时 ， 我 们 说 PV 0 成 立 。 相 应 地 ， 当 p=1 或 者 q=1 时 ， 
p | gq 等 于 1。 布尔 运算 ^ 对 应 于 逻辑 运算 异 或 ， 在 命题 逻辑 中 用 符号 @ 表 示 。 当 P 了 或 者 2 为 真 但 
不 同时 为 真 时 ， 我 们 说 P@ 0 成立。 相应 地 ， 当 p=1 且 49=0， 或 者 p=0 且 9=]1 时 ， pg 等 于 1。 





| 图 27 布尔 代数 的 运算 

后 来 创立 信 息 理论 领域 的 Claude Shannon (1916 一 2001) 首先 建立 了 布尔 代数 和 数字 逻辑 之 间 的 
联系 。 在 1937 年 ， 他 在 硕士 论文 中 表明 了 布尔 代数 可 以 用 来 设计 和 分 析 机 电 继电器 网 络 。 尽管 那 时 计 
“等 机 技术 已 经 取得 了 相当 的 发 展 ， 但 是 布尔 代数 仍然 在 数字 系统 的 设计 和 分 析 中 扮演 着 重要 的 角色 。 

我 们 可 以 将 上 述 4 个 布尔 运算 扩展 到 位 向 量 的 运算 ， 位 向 量 就 是 有 固定 长 度 为 w、 由 0 和 1 
组 成 的 串 。 位 向 量 的 运算 可 以 定义 成 参数 的 每 个 对 应 元 素 之 间 的 运算 。 假 设 a 和 2 分 别 表示 位 向 
量 [a Cw-2，“”， ao] 和 [bos b,,_ 2 …， bol。 我 们 将 a&b 也 定义 为 一 个 长 度 为 w 的 位 回 量 ， 
其 中 第 i 个 元 素 等 于 a&b, 0 < i< w。 可 以 用 类 似 的 方式 将 运算 |、 ^ 和 扩展 到 位 向 量 上 。 

举 个 例子 ， 假 设 w=4， 参 数 a=[0110]，b=[1100]。 那 么 4 种 运算 a &b、a|b、a^ bb 和 二 分 别 得 
到 以 下 结果 : 


”0110 0110 0110 
& 1100 | 1100 ~ 1100 ~ 1100 
0100 1110 1010 0011 


最 弹 练 习题 2.8 ”填写 下 表 ， 给 出 位 向 量 的 布尔 运算 的 求 值 结果 。 
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[01101001] 
[01010101] 





DATA:BOOL : 关于 布尔 代数 和 布尔 环 的 更 多 内 容 

对 于 任意 整数 w > 0， 长 度 为 w 的 位 向 量 上 的 布尔 运算 |、 及 和 ~ 形成 了 一 个 布尔 代数 。 最 简单 
的 情况 是 w=1 时 ， 只 有 2 个 元 素 ; 但 是 对 于 更 普遍 的 情况 下 ， 有 2" 个 长 度 为 w 的 位 向 量 。 布 尔 代数 
和 整数 算术 运算 有 很 多 相似 之 处 。 例 如 ， 乘 法 对 加 法 的 分 配 律 ， 写 做 a:(bt+Q)=(a*b)+(a'c)， 而 布尔 运 
算 及 对 | 的 分 配 律 ， 写 做 a&&(b'c)=(a&&b) | (a&&c)。 此外， 布尔 运算 | 对 色 也 有 分 配 律 ， 写 做 
a | (b&o=(a: DR&(a:o), 但 是 对 于 整数 我 们 不 能 说 a+(b c)=(at+b)': (at+c)。 

当 考 虑 长 度 为 w 的 位 向 量 上 的 ^ 久 和 ~ 运算 时 ， 会 得 到 一 种 不 同 的 数学 形式 ， 我 们 称 为 布 
尔 环 《Boolean ring)。 布 尔 环 与 整数 运算 有 很 多 相同 的 属性 。 例 如 ， 整 数 运算 的 一 个 属性 是 每 个 什 
x 部 有 一 个 加 法 逆 元 (additive inverse) 一 x， 使 得 x+( 一 x)= 0。 布尔 环 也 有 类 似 的 属性 ， 这 里 的 “加 
法 ”运算 是 ^， 不 过 这 时 每 个 元 素 的 加 法 逆 元 是 它 自己 本 身 。 也 就 是 说 ， 对 于 任何 值 a 来 说 ，a^a= 0， 
这 里 我 们 用 0 来 表示 全 0 的 位 向 量 。 可 以 看 到 对 单个 位 来 说 这 是 成 立 的 ， 即 0^0=1^1=0， 
个 扩展 到 位 向 量 也 是 成 立 的 。 当 我 们 重新 排列 组 合 顺序 ， 这 个 属性 也 仍然 成 立 ， 因 此 有 (a 人 ^b) 人 ^ 
bp。 这 个 属性 会 引起 一 些 很 有 趣 的 结果 和 联 明 的 技巧 ， 在 练习 题 2.10 中 我 们 会 有 所 探讨 。 


位 向 量 一 个 很 有 用 的 应 用 就 是 表示 有 限 集合 。 我 们 可 以 用 位 向 量 [4,_!，.…，al，ao] 编码 任 
何 子 集 4E{0， 1 ， …， w—1}, 其 中 a; 二 1 当 且 仪 当 i € 4。 例如 , ( 记 住 我 们 是 把 a,， 写 在 左边 
而 将 wm 写 在 右边 )， 位 向 量 a= [01101001] 表示 集合 4= {0, 3, 5, 6}， 而 2 = [01010101] 表示 集合 
8 = {0，2，4，6}。 使 用 这 种 编码 集合 的 方法 ， 布 尔 运算 | 和 & 分 别 对 应 于 集合 的 并 和 交 ， 而 “对 
应 于 于 集合 的 补 。 还 是 用 前 面 那个 例子 ， 运 算 a& 4b 得 到 位 向 量 [01000001], 而 4 B= {0,6}。 
在 大 量 实际 应 用 中 ， 我 们 都 能 看 到 用 位 向 量 来 对 集合 编码 。 例 如 ， 在 第 8 章 ， 我 们 会 看 到 有 
很 多 不 同 的 信号 会 中 断 程序 执行 。 我 们 能 够 通过 指定 一 个 位 向 量 掩 码 ， 有 选择 地 使 能 或 是 不 能 屏 
项 一 些 信号 ， 其 中 某 一 位 位 置 上 为 1 时 ， 表 明 信 号 i 是 有 效 的 ， 而 0 表明 该 信号 是 被 屏蔽 的 。 因 
而 ， 这 个 掩 码 表示 的 就 是 设置 为 有 效 信号 的 集合 。 后 汪汪 
共 表 练习 题 2.9 通过 混合 三 种 不 同 颜色 的 光 〈 红 色 、 绿 色 和 蓝 色 )， 计 算 机 可 以 在 视频 屏幕 或 者 液晶 显示 
器 上 产生 彩色 的 画面 。 设 想 一 种 简单 的 方法 ， 使 用 三 种 不 同 颜色 的 光 ， 每 种 光 都 能 打开 或 关闭 ， 投 射 
到 臻 璃 屏幕 上 ， 如 图 所 示 : 





光源 玻璃 屏幕 
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那么 基于 光源 RR( 红 )、G ( 绿 )、B 蓝 ) 的 关闭 (0) 或 打开 (1)， 我 们 就 能 够 创建 8 种 不 同 的 颜色 : 





A. 一 种 颜色 的 补 是 通过 关 掉 打开 的 光源 ， 且 打开 关闭 的 光源 而 形成 的 。 那 么 上 面 列 出 的 8 种 颜色 每 一 


种 的 补 是 什么 ? 和 
B. 描述 下 列 颜色 应 用 布尔 运算 的 结果 : 
蓝 色 | 绿色 = 


黄色 有 && 蓝 绿 色 = 

红色 人 ^ 红 紫色 = 
2.1.8 C 语言 中 的 位 级 运算 二 由 
”“C 语 言 的 一 个 很 有 用 的 特性 就 是 它 支 持 按 位 布尔 运算 。 事 实 上 ， 我 们 在 布尔 运算 中 使 用 的 那 
些 符 号 就 是 C 语言 所 使 用 的 : | 就 是 OR (或 )， & 就 是 AND (与 )， ~ 就 是 NOT〈 取 反 )， 而 ^ 就 
是 EXCLUSIVE-OR〈 蜡 或 )。 这 些 运算 能 运用 到 任何 “ 整 型 ”的 数据 类 型 上 ， 也 就 是 那些 声明 为 
char 或 者 int 的 数据 类 型 ， 无 论 它们 有 没有 像 short、 long、 long long 或 者 uns igned 
这 样 的 限定 词 。 以 下 是 一 些 对 char 数据 类 型 表达 式 求 值 的 例子 。 


me | | 
0x00 | -oooool Da | oxFF 
， 正如 示例 说 明 的 那样 ,确定 一 个 位 级 表达 式 的 结果 最 好 的 方法 ， 就 是 将 十 六 进 制 的 参数 扩展 
成 二 进 制 表示 并 执行 二 进 制 运算 ,然后 再 转换 回 十 六 进 制 。 .  : 
洲 练习 题 2.10 ”对 于 任 一 位 向 量 a， 有 a^a=0。 应 用 这 一 属性 , .考虑 下 面 的 程序 : . : 

























void inplace_swap(int ‘xX, int *y) 工 ， 可 


1 
2  *y= *x° *y; /*'Step 1 */ 
3 *xX = *xX ~ *y; /* Step 2 */ 
4 *y = *x ~ *y; /* Step 3 */ 
5 


正如 程序 名 字 所 暗示 的 那样 ， 我 们 认为 这 个 过 程 的 效果 是 交换 指针 变量 x 和 y 所 指向 的 存储 位 置 
处 存放 的 值 。 注 意 ， 与 通常 的 交换 两 个 数值 的 技术 不 一 样 ， 当 移动 一 个 值 时， 我 们 不 需要 第 三 个 位 置 
来 临时 存储 另 一 个 值 。 这 种 交换 方式 并 没有 性 能 上 的 优势 ， 它 仅仅 是 一 个 智力 游戏 。 

以 指针 x 和 y 指向 的 位 置 存 储 的 值 分 别 是 a 和 4b 作为 开始 填写 下 表 ， 给 出 在 程序 的 每 一 步 之 后 ， 存 
储 在 这 两 个 位 置 中 的 值 。 利 用 ^ 的 属性 证 明达 到 了 所 希望 的 效果 。 回 想 一 下 ， 每 个 元 素 就 是 它 自身 的 
加 法 逆 元 Ca^a=0)。 Wk . ee | es 
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os 练习 题 2.11 在 练习 题 2.10 中 的 inplace swap 函数 的 基础 上 ， 你 决定 写 一 段 代码 ， 实 现 将 一 个 数 
组 中 的 元 素 头 尾 两 端 依次 对 调 。 你 写 出 下 面 这 个 函数 : 


1 void reverse_array(int a[] int cnt) { 


2 int first, last; 

3 for (first = 0, last = cnt-1; 

4 first <= last; 

5 first++,last-——) | 
6 | inplace_swap(&a[first], &a[last]); 

7 .3} 3 


当 你 对 一 个 包含 元 素 1、2、3 和 4 的 数组 使 用 这 个 函数 时 ， 正 如 预期 的 那样 ， 更 在 数组 的 元 素 变 成 了 4、 

3、2 和 1。 不 过 ， 当 你 对 一 个 包含 元 素 1、2、3、4 和 5 的 数组 使 用 这 个 函数 时 ， 你 会 很 惊奇 地 看 到 得 

到 数字 的 元 素 为 5、4、0、2 和 1。 实 际 上 ， 你 会 发 现 这 段 代码 对 所 有 偶数 长 度 的 数组 都 能 正确 地 工作 ， 

但 是 当 数 组 的 长 度 为 奇数 时 ， 它 就 会 把 中 间 的 元 素 设置 成 0。 

A. 对 于 一 个 长 度 为 奇数 的 数组 ， 长 度 cnt=2k+1， 函 数 zeverse_array 最 后 一 次 循环 中 ， 变 量 
first 和 Last 的 值 分 别 是 什么 ? 

B. 为 什么 这 时 调用 函数 xor_swap 会 将 数组 元 素 设置 为 0? 

C. 对 reverse array 的 代码 做 哪些 简单 改动 就 能 消除 这 个 问题 ? 


位 级 运算 的 一 个 常见 用 法 就 是 实现 掩 码 运算 ， 这 里 掩 码 是 一 个 位 模式 ， 表 示 从 一 个 字 中 选 出 
的 位 的 集合 。 让 我 们 来 看 一 个 例子 ， 掩 码 0xFF (最 低 的 8 位 为 1) 表示 一 个 字 的 低位 字 节 。 位 
级 运算 x&0xFF 生成 一 个 由 x 的 最 低 有 效 字 节 组 成 的 值 ， 而 其 他 的 字 节 就 被 置 为 0。 比如 ， 对 于 
x=0x89ABCDEF, 其 表达 式 将 得 到 Ox000000EF。 表达 式 “0 将 生成 一 个 全 1 的 掩 码 ， 不 管 机 器 
的 字 大 小 是 多 少 。 尽 管 对 于 一 个 32 位 机 器 来 说 ， 同样 的 掩 码 可 以 写成 OxFFFFFFFEF, 但 是 这 样 
的 代码 不 是 可 移植 的。 | 
负 练 习题 2.12 对 于 下 面 的 信 ， 写 出 变量 x 的 语言 表 达 式 。 你 的 代码 应 该 对 任何 守 长 w> 8 都 能 工 
作 。 我 们 给 出 了 当 x=0x87654321 以 及 w= 32 时 表达 式 求 值 的 结果 ， 仅 供 参考 
A.X 的 最 低 有 效 字 节 ， 其 他 位 均 置 为 0。[0x00000021]。 z 0 ee 
B. 除 了 x 的 最 低 有 效 字 节 外 ， 其 他 的 位 都 取 补 ， 最 低 有 效 字 节 保持 不 变 。[0x789RBC21] 。 

C.x 的 最低 有 效 字 节 设置 成 全 1， 其 他 字 节 都 保持 不 变 。[0x876543FF]。 
i 练习 题 2.13 从 20 世纪 70 年代 末 到 80 年 代 末 ，Digital Equipment 的 VAX 计算 机 是 一 种 非常 流行 的 
机 型 。 它 没有 布尔 运算 AND 和 OR 指令 ， 只 有 bis (位 设置 ) 和 bic (位 清除 ) 这 两 种 指令 。 两 种 
”指令 的 输入 都 是 一 个 数据 字 x 和 一 个 掩 码 字 m。 它 们 生成 一 个 结果 z，z 是 由 根据 掩 码 m 的 位 来 修改 x 
“的 位 得 到 的 。 使 用 bis 指令 ， 这 种 修改 就 是 在 m 为 1 的 每 个 位 置 上 ， 将 z 对 应 的 位 设置 为 1。 使 用 bic 
指令 ， 这 种 修改 就 是 在 m 为 1 的 每 个 位 置 ， 将 z 对 应 的 位 设置 为 0。 z 
为 了 清楚 因为 这 些 运算 与 C 语言 位 级 运算 的 关系 ， 假设 我 们 有 两 个 函数 bis 和 和! bic 米 实 贡 岗位 设 

置 和 位 清除 操作 。 只 想 用 这 两 个 函数 ， 而 不 使 用 任何 其 他 C 语言 运算 ， 来 实现 按 位 | 和 < 直 写 

下 列 代码 中 缺失 的 代码 。 提 示 : 写 出 bis 和 bic 运算 的 C 语 言 表达 式 。 

/* Declarations of Teton implementing operations bis.and bic */ 

-int bis(int x, int m); 

int bic(int X, int m);: 








/* Compute xly using only calls to functioris bis and bi 
int bool_or(int x, int y) { 党 

linb Tesult Sn tn 

return pO 


} 


/* Compute xy using only calls to functions bis and bic */. 


_36 和 钊 一 部 分 在 序 乡 娩 和 并 打 


int bool_xor(int > int y) { 
int result =  ....) 
return result; 


} 


2.1.9 C 语言 中 的 逻辑 运算 

C 语言 还 提供 了 一 组 远 辑 运算 符 |、&& 和 ! ， 分 别 对 应 于 命题 逻辑 中 的 OR、AND 和 NOT 
运算 。 逻 辑 运算 很 容易 和 位 级 运算 相 混淆 ， 但 是 它们 的 功能 是 完全 不 同 的 。 逻 辑 运 算 认 为 所 有 非 
零 的 参数 都 表示 TRUE， 而 参数 0 表示 FALSE。 它们 返 同 1 或 者 0， 分 别 表示 结果 为 TRUE 或 者 
为 FALSE。 以 下 是 一 些 表达 式 求 值 的 示例 。 


| 
TE 








可 以 观察 到 ， 按 位 运算 只 有 在 特殊 情况 下， 也 就 是 参数 被 限制 为 0 或 者 1 时 ， 才 和 与 其 对 应 
的 逻辑 运算 有 相同 的 行为 。 
”逻辑 运算 符 && 和 | 与 它们 对 应 的 位 级 运算 & 和 | 之 间 第 二 个 重要 的 区 别 是 ， 如 果 对 第 一 个 
参数 求 值 就 能 确定 表达 式 的 结果 ， 那 么 逻辑 运算 符 就 不 会 对 第 二 个 参数 求 值 。 因 此 ， 例 如 ， 表 达 
式 a&&5/a 将 不 会 造成 被 零 除 ， 而 表达 式 p&&*p++ 也 不 会 导致 间接 引用 空 指针 。 





洲 强 练习 题 2.15 ”只 使 用 位 级 和 座 辑 运算 ， Re 它 等 价 于 x==y。 换 各 话说 ， 当 x 和 y 相 
人 否则 就 返回 0。 


2.1.10 ”C 语言 中 的 移 位 运算 

C 语言 还 提供 了 一 组 移 位 运算 ， 以 便 向 左 或 者 向 右 移动 位 模式 。 对 于 一 个 位 表示 为 be 
x,_2， 2Xo] 的 操作 数 x, C 表达 式 x<<k 会 生成 一 个 值 ， 其 位 表示 为 [ke -cxo 0,，*…, 0]。 
也 就 是 说 ，x 向 左 移动 位， 丢弃 最 高 的 kX 位， 并 在 右 端 补 个 0。 ee 
之 间 的 值 。 移 位 运算 是 从 左 至 右 可 结合 的 ， 所 以 x<<j<<k 等 价 于 (x<<j) <<k。 

有 一 个 相应 的 右 移 运算 x>>k， 但 是 它 的 行为 有 点 微妙 。 一 般 而 言 ， 机 器 支持 两 种 形式 的 右 
移 : 逻辑 右 移 和 算术 右 移 。 逻 辑 右 移 在 左 端 补 上 个 0， 得 到 的 结果 是 [0，…，0， x ix 2，…， 
zx。 算术 右 移 是 在 左 端 补正 个 最 高 有 效 位 的 值 ， 得 到 的 结果 是 [x x1 xz Xn 
xz]。 这 种 做 法 看 上 去 可 能 有 点 奇特 ， 但 是 我 们 会 发 现 它 对 有 符号 整数 数据 的 运算 非常 有 用 。 
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让 我 们 来 看 一 个 例子 ， 下 面 的 表 给 出 了 对 某 些 实例 8 位 数据 做 不 同 的 移 位 操作 得 到 的 结果 。 


/ 













mo on | 


斜体 的 数字 表示 的 是 最 右 端 〈 左 移 ) 或 最 左 端 〈 右 移 ) 填充 的 值 。 可 以 看 到 除了 一 个 条 目 之 外 ， 
其 他 的 都 涉及 填充 0。 唯 一 的 例外 是 算术 右 移 [10010101] 的 情况 。 因 为 操作 数 的 最 高 位 是 1， 填 
充 的 值 就 是 1。 z l a 

C 语言 标准 并 没有 明确 定义 应 该 使 用 哪 种 类 型 的 右 移 。 对 于 无 符号 数据 (也 就 是 以 限定 词 
unsigned 声明 的 整 型 对 象 )， 右 移 必须 是 逻辑 的 。 而 对 于 有 符号 数据 (默认 的 声明 的 整 型 对 
象 )， 算 术 的 或 者 逻辑 的 右 移 都 可 以 。 不 幸 的 是 ， 这 就 意味 着 任何 假设 一 种 或 者 另 一 种 右 移 形式 
的 代码 都 潜在 着 可 移植 性 问题 。 然 而 ， 实 际 上 ， 几 乎 所 有 的 编译 器 / 机 器 组 合 都 对 有 符号 数据 使 
用 算术 右 移 ， 且 许多 程序 员 也 都 假设 机 器 会 使 用 这 种 右 移 。 

另 一 方面 ，Java 对 于 如 何 进行 右 移 有 明确 的 定义 。 表 达 式 x>>k 会 将 x 算术 右 移 k 个 位 置 ， 
而 x>>>k 会 对 x 做 逻辑 右 移 。 本 ES 

移动 上 位 ， 这 里 大 很 大 


对 于 一 个 由 内 位 组 成 的 数据 类 型 ， 如 果 要 移动 天 > 岂 位 会 得 到 什么 结果 呢 ? 例如 ， 在 一 个 
32 位 机 器 上 计算 下 面 的 表达 式 会 得 到 什么 结果 : | 四 

int lval = OxFEDCBA98 << 32;. 

int aval = OxFEDCBA98 >> 36; 

unsigned uval = OxFEDCBA98u >> 40; 


C 语言 标准 很 小 心地 规避 了 说 明 在 这 种 情况 下 该 如 何 做 。 在 许多 机 器 上 ， 当 移动 一 个 w 位 
的 值 时 ， 移 位 指令 只 考虑 位 移 量 的 低 logzw 位 ， 因 此 实际 上 位 移 量 就 是 通过 计算 kmod w 得 到 
的 。 例 如 ， 在 一 台 采 用 这 个 规则 的 32 位 机 器 上 ， 上 面 三 个 移 位 运算 分 别 是 移动 0、4 和 8 位， 得 
到 结果 : 

lval OxFEDCBA98 


aval OxFFEDCBA9 
uval OxOOFEDCBA 


不 过 这 种 行为 对 于 C 程序 来 说 是 没有 保证 的 ， 所 以 移 位 数量 应 该 保持 小 于 字 长 。_ 

另 一 方面 ，Java 特别 要 求 位 移 数量 应 该 按照 我 们 前 面 所 讲 的 求 模 的 方法 来 计算 。 

与 移 位 运算 有 关 的 操作 符 优 先 级 问题 

常常 有 人 会 写 这 样 的 表达 式 1<<2+3<<4， 其 本 总 是 (1<<2)+ (3<<4) 。 但 是 在 C 语言 中 ， 
前 面 的 表达 式 等 价 于 1<< (2+3) <<4， 这 是 由 于 加 法 〈 和 减法 ) 的 优先 级 比 移 位 运算 要 高 。 然 
后 ， 按 照 从 左 至 右 结合 性 规则 ， 括 号 应 该 是 这 样 打 的 (1<< (2+3) ) <<4， 因 此 得 到 的 结果 是 
512， 而 不 是 期 望 的 52。 JE A 

在 C 表达 式 中 搞 错 优先 级 是 一 种 常见 的 程序 错误 ， 而 且 常 常 很 难 检查 出 来 。 所 以 当 你 拿 不 
准 的 时 候 ， 请 加 上 括号 ! JU 


练习 题 2.16 填写 下 表 ， 说 明 不 同 移 位 运算 对 单字 节 数 的 影响 。 思 考 移 位 运算 的 最 好 方式 是 使 用 二 进 


-操作 本 
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“ 制 表示 。 将 最 初 的 值 转换 为 二 进 制 执行 移 位 运算 ， 然后 再 转换 回 十 六 进 制 。 每 个 答案 都 应 该 是 8 个 二 
进 制 di 2 个 十 六 进 制 数字 。 ‘ | 






| 


2 整数 表示 


在 本 节 中 ， 我 们 描述 用 位 来 编码 整数 的 两 种 不 同 的 方式 : 一 种 只 能 表示 非 负 数 ， 而 另 一 种 能 
够 表示 负数 、 零 和 正 数 。 后 面 我 们 将 会 看 到 它们 的 数学 属性 和 机 器 级 实现 方 而 密切 关联 。 我 们 还 
ed a 
2.2.1 整 型 数据 类 型 . 

CC 语言 支持 多 种 整 型 数据 类 型 一 表示 有 限 范围 的 整数 。 这 些 类 型 如 图 2.8 和 图 2.9 所 示 ， 
其 中 还 给 出 了 “典型 的 ”32 位 和 64 位 机 器 的 取 值 范围 。 每 种 类 型 都 能 用 关键 字 来 指定 大 小 ， 这 
些 关键 字 包 括 char、short、1ong 或 者 1ong long， 同 时 还 可 以 指示 被 表示 的 数字 是 非 负 
数 〈 声 明 为 unsigned),， 或 者 可 能 是 负数 (默认 )。 如 图 2-3 所 示 ， 这些 不 同 大 小 的 分 配 的 字 节 
数 会 根据 机 器 的 字 长 和 编译 器 有 所 不 同 。 根据 字 人 分配 ， 不 同 的 大 小 所 能 表示 的 值 的 范围 是 不 同 
的 。 这 里 给 出 来 的 唯一 一 个 与 机 器 相关 的 取 值 范围 是 大 小 指示 符 1ong 的 。 大 多 数 64 位 机 器 使 
用 8 个 字 节 表示 ， 比 32 的 4 个 字 节 表示 si a z 

图 2-8 和 图 2-9 中 
eR 全 沽 本 册 | 











-128| 127 | 
| unsignedchar :| 村 0 | | 
| short[int]: -| SH -32768 |  : .+ 32767. 

unsigned short [int| : 0 65 535 
int —2 147 483 648 .2 147.483 647 


unsigned [int| 0 4 294.967 295 
long [int| —2 147 483 648 2147483647 
unsigned long [int] 0 4294967295 | 
long long [int] -9 223 372 036 854 775 808 9 223 372 036 854 775 807 | 
unsigned lonig Iong [iat] | “0 118446744073 709 551 615 





图 2-8 32 位 机 器 上 C 语言 言 的 整 型 数据 类 型 的 典型 取 值 范围 《 方 括号 中 的 文字 是 可 选 的 ) 


Ci 语 胡言 标准 定义 了 每 种 数据 类 型 必须 能 够 表示 的 最 小 的 取 值 范围 如 图 2-10 所 示 ， 它们 
的 取 值 范围 与 图 2-8 和 图 2-9 所 示 的 典型 实现 一 - 样 或 者 小 一 些 。 特别 地 ， 我 们 看 到 它们 只 要 
求 正 数 和 负数 的 取 值 范围 是 对 称 的 。 此 外 ， 数 据 类 型 int 可 以 用 2 个 字 节 的 数字 来 实现 ， 而 
这 几乎 退回 到 了 16 位 机 器 的 时 代 。 还 看 到 ，1eng 的 大 小 可 以 用 4 个 字 节 的 数字 来 实现 ， 而 
实际 上 也 常常 是 这 样 。 数 据 类 型 1ong long 是 在 ISO C99 中 引入 的 ， 它 需要 至 少 8 个 字 节 
表示 。 


unsigned char 
short [int] 
unsigned short [int|] 


int 

unsigned [int] 

long [int| 

unsigned long [int| 

long long [int] 
unsigned long long [int|] 
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”一 128 

0 

一 32 768 

0 

一 2 147 483 648 

0 

一 9 223 372 036 854 775 808 
0 


—9 223 372 036 854 775 808 





127 

255 

32 767 

65 535 

2 147 483 647 

4 294 967 295 

9 223 372 036 854 775 807 
18 446 744 073 709 551 615 
9 223 372 036 854 775 807 
18 446 744 073 709 551 615 


图 2-9 64 位 机 器 上 C 语言 的 整 型 数据 类 型 的 典型 取 值 范围 ( 方 括号 中 的 文字 是 可 选 的 ) 


| unsigned char 
short [int] 
unsigned short [int|] 
| int 


unsigned [int] 

long [int] 
unsigned long [int] : 
long long [int| 


一 9 223 372 036 854 775 807 


一 127 


0 | 


一 32 767 


0 . 


-32767 
0 


_2147 483 647 


0 


127 
255 
32 767 
65 535 
32767 | 
65 535 
2147 483 647 
4 294 967 295 
9 223 372 036 854 775 807 
18 446 744 073 709 551 615 





unsigned long long [int] 0 


图 2-10 C 语 言 的 整 型 数据 类 型 的 保证 的 取信 范围 方 括号 中 的 文字 是 可 先 的 ) 
CC 语言 标 准 要 求 这 些 数 据 类 型 必 须 至 少 具有 这 样 的 取 值 范围 。 


给 C 语言 初学 者 : C、 C++ 和 Java 中 的 有 符号 和 无 符号 数 


C 和 C++ 都 支持 有 符号 (默认 ) 和 无 符号 数 。Java 只 支持 有 符号 数 。 


2.2.2 无 符号 数 的 编码 


假设 一 个 整数 数据 类 型 有 w 位 。 我 们 可 以 将 位 向 量 写 成 x， 表 示 整 个 向 量 ， 或 者 写成 [x ， 


Xw—2 ? 


…， 尖 ， 表 示 向 量 中 的 每 一 位 。 把 看 做 一 个 一 进 制 表示 的 数 ， 就 获得 了 的 无 符号 表示 。 


我 们 用 一 个 函数 B2U,, (Binary to Unsigned) 的 缩写 ， 长 度 为 w) 来 表示 : 


在 这 个 等 式 中 ， 符 号 “之 


w—1 


B2UuwG = > xi2 


i=0 


(2-1) 


”表示 左边 被 定义 为 等 于 右边 。 函 数 B2U 将 一 个 长 度 为 w 的 0、1 串 映 射 


到 非 负 整数 。 举 一 个 示例 ， 图 2-11 展示 的 是 下 面 几 种 情况 下 B2U 给 出 的 从 位 向 量 到 整数 的 映射 。 
B2U4([0001) = 0:23+0.22+0.21+1.20 = 0+0+0+1 = 1 
B2Ua([0101) = 0:22+122+0.2+120 = 0+4+0+1 = 5 oo) 
_ B2U4([1011) = 1.:23+0.2+1.21+1.20 = 8+0+2+1 = 11 ‘ 

7 B2U4([1111) = 1:23+1:2+1: 21 +1: 2 = Sl 3 1 


在 图 中 ， 我 们 用 长 度 为 2; 的 指向 右 侧 箭头 的 条 表示 每 个 位 的 位 置 i。 每 个 位 向 量 对 应 的 数值 
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就 等 于 所 有 值 为 1 的 位 对 应 的 条 的 长 度 之 和 。 





[0001] 

[oaol] 

ol 
I 4 

图 2-11 w=4 的 无 符号 数 示例 。 当 二 进 制 表示 中 为 i 为 1， 数值 就 会 相 应 的 加 上 2 


让 我 们 来 考虑 一 下 位 所 能 表示 的 值 的 范围 。 最 小 值 是 用 位 向 量 [00. “0] 表示 ， 也 就 是 整数 值 
0， 而 最 大 值 是 用 位 向 量 [11…1] 表示 ， 也 就 是 整数 值 VMaxu 二 并 ”12: =2* 一 1。 以 w=4 位 为 例 ， 
UMaerx = B2UA[1111) = 2 全 1= 1$。 因 此 ， 函 数 B2U, 能 够 被 定义 为 一 个 映射 B2U.:{0; 1}” 一 {0，…， 
2*—1})。 , , 

无 符号 数 的 二 进 制 表示 有 一 个 很 重要 的 属性 ， 就 是 每 个 介 于 0 ~ 2"1 之 间 的 数 都 有 唯一 一 

| 个 w 位 的 值 编码 。 例如 ， 十 进 制 值 11 作为 无 符号 数 ， 只 有 一 个 4 位 的 表示 ， 即 [1011]。 这 个 属 

性 用 数学 语言 来 描述 就 是 函数 B2U,, 是 一 个 双 射 一 一 对 于 每 一 个 长 度 为 w 的 位 向 量 ， 都 有 一 个 唯 
一 的 值 与 之 对 应 ; 反 过 来 ,在 0 一 2" 一 ! < 由 | 一 个 唯一 的 长 度 为 w 的 位 向 量 二 
进 制 表示 与 之 对 应 。 
2.2.3” 补 码 编码 

对 于 许多 应 用 ， 我 们 还 希望 表示 负数 值 。 最 常见 的 有 符号 数 的 计算 机 表示 方式 就 是 补 友 
(two’ s-complement) 形式 。 在 这 个 定义 中 ， 将 字 的 最 高 有 效 位 解释 为 负 权 (negative weight )。 
我 们 用 函数 B2T, (Binary to Two’ s-complement 的 缩写 ， 长 度 为 w) 来 表示 : 


WwW—2 i . 
Bar Ci 2 Ey Rs 
i=0 


最 高 有 效 位 x 也 称 为 符号 位 ， 它 的 “权重 ”为 -2”!， 是 无 符号 表示 中 权重 的 负数 。 符 号 
位 被 设 置 为: 时 ， 表 示 什 为 负 ， 而 当 设置 为 0 时 ， 什 为 非 负 。 这 里 来 看 一 个 示例 ， 图 2-12 展示 
的 是 下 面 几 种 情况 下 B27 给 出 的 从 位 向 量 到 整数 的 映射 





0+0+0+1 = 1 


B274([0001]) = -0.:23+0.:2+0.2!1+1.20 = 

B2T4([0101) = -0:23+1:2+0.:21+1:2 = 0+4+0+1 = 5 (24) 
B274([1011) = -1.:23+0.:2+1.21+1.:2 = -8+0+2+1 = -5 
8B274(1111) = -1:23+1.2+1:.21+1.20. = -8+4+2+1 = -1 


在 这 个 图 中 ， 我 们 用 向 左 指 的 条 表示 符号 位 具有 负 权 重 。 于 是 ， 与 一 个 位 向 量 相 关联 的 数值 
是 由 可 能 的 向 左 指 的 灰色 条 和 向 右 指 的 蓝 色 条 加 起 来 决定 的 。 z 

我 们 可 以 看 到 ， 图 2-11 和 图 2-12 中 的 位 模式 都 是 一 样 的 ， 对 等 式 (2-2) 和 等 式 2 4) 来 
说 也 是 一 样 ， 但 是 当 最 高 有 效 位 是 1 时 ， 数 值 是 不 同 的 ， 这 是 因为 在 一 种 情况 中 ， 最 高 有 效 位 的 
人 +8， 而 在 另 一 种 情况 中 ， 它 的 权重 是 -8。 

“让 我 们 来 考虑 下 ”位 补 码 所 能 表示 的 值 的 范围 它 能 表示 的 最 小 信 是 位 向 量 [10-. 0] 也 就 
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et 个 位 为 负 权 ， 但 是 清除 其 他 所 有 的 位 )， 其 整数 值 为 TMin,, 三 一 2-!。 而 最 大 值 是 位 向 量 

01…1] (清除 具 有 负 权 的 位 ， 而 设置 其 他 所 有 的 位 )， 其 整数 值 为 TMax,, 二 D2 二 2w-1 1。 
a 为 4 为 例 ， 我 们 有 TMin4 = - 8B274(1000) = -23 二 -8, 而 TMax4 = B2T4([0111D =22 十 
21+20=4+2++1=7。 z : 


[0001] 
[0101] 
[1011] 





[1111] 


图 2-12 w=4 的 补 码 示例 。 把 位 3 作为 符号 位 ， 因此 当 它 为 1 时 ， 对 数值 的 影响 是 2 
本 图 中 用 带 向 左 箭头 的 条 表示 


我 们 可 以 看 出 B27, 是 一 个 从 长 度 为 w 的 位 模式 到 TMin, 和 TMax, 之 间 数 字 的 映射 ， 写 做 
B27T,:{0，1}” 一 {2”，…，2” 一 1}。 同 无 符号 表示 一 样 ， 在 可 表示 的 取 值 范围 内 的 每 个 数字 
都 有 一 个 唯一 的 w 位 的 补 码 编码 。 用 数学 语言 来 说 就 是 B27, 是 一 个 双 射 一 一 每 个 长 度 为 w 的 位 
向 量 都 对 应 一 个 唯一 的 值 ; 反 过 来 ， 人 “2 2 1 之 辣 的 整数 都 有 了 
为 w 的 位 向 量 二 进 制 表 示 。 

屋 汪 | 练习 题 2.17 假设 w = 4， 我 们 能 给 每 个 可 能 的 十 六 进 制 数字 赋予 一 个 数值， 假设 用 一 个 无 符号 或 者 





补 码 表示 。 请 根据 这 些 表示 ， 通 过 写 出 等 式 〈2-1) 和 等 式 (2-3) 所 示 的 求 和 公式 中 的 2 的 非 零 次 宕 ， 
填写 下 表 : 










图 2-13 展示 了 针对 不 同 字 长 ， 几 个 重要 数字 的 位 模式 和 数值 。 前 三 个 -给 出 是 可 表示 的 上 
数 的 范围 用 UMaxw。、TMin, 和 TMax, 来 表示 。 在 后 面 的 讨论 中 ， 我 们 还 会 经 常 引用 到 这 三 
特殊 的 值 。 如 果 可 以 从 上 下 文中 推断 出 w， 或 者 w 不 是 讨论 的 主要 内 容 时 ， 我 们 会 省 财 直 乏 W， 
直接 引用 UMax、TMin 和 TMax。 : 

关于 这 些 数 字 ， 有 几 点 值得 注意 。 第 一 ， 从 图 2-8 和 图 2-9 可 以 看 到 ， 补 码 的 范围 是 不 对 称 
的 : |TMin| = |TMax| + 1， 也 就 是 说 ，TMin 没有 与 之 对 应 的 正 数 。 正 如 我 们 将 会 看 到 的 ， 这 导致 
补 码 运 算 的 某 些 特殊 的 属性 ， 并 且 容 易 造 成 程序 中 细微 的 错误 。 之 所 以 会 有 这 样 的 不 对 称 性 ， 是 
因为 一 半 的 位 模式 《符号 位 设置 为 1 的 数 ) 表示 负数 ， 而 一 半 的 数 〈 符 号 位 设置 为 0 的 数 ) 表示 
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非 负 数 。 因 为 0 是 非 负 数 ， 也 就 意味 着 能 表示 的 正 数 比 负数 少 一 个 。 第 二 ， 最 大 的 无 符号 数值 刚 
好 比 补 码 的 最 大 值 的 两 倍 大 一 点 : UMax,, = 2 TMax,, + 1。 补 码 表示 中 所 有 表示 负数 的 位 模式 在 无 
得 号 表示 中 都 变 成 了 正 数 。 图 2-13 也 给 出 了 常数 -1 和 0 的 表示 。 注 意 -1 和 UMax 有 同样 的 位 
表示 一 一 一 个 全 1 的 串 。 数 值 0 在 两 种 表示 方式 中 都 是 全 0 的 串 。 








Te Ta Ta 
OxFF OXxFFFF OXxFFFFFFFF OXFFFFFFFFFFFFFFFF 
65 535 4 294 967 295 18 446 744 073 709 551 615 


UMax,, 

TMin,, 0x80 0x8000 0x80000000 0x8000000000000000 
Do 
TMax,, Ox7F Ox7FFF Ox7FFFFFFF " OX7FFFFFFFFFFFFFFF 
| 2 147 483 647 9 223 372 036 854 775 807 

一 | OxFF OxFFFF OxXxFFFFFFFF OXFFFFFFFFFFFFFFFF 

z 图 2-13 ”重要 的 数字 。 图 中 给 出 了 数字 和 十 六 进 制 表 示 

C 语言 标准 并 没有 要 求 用 补 码 形式 来 表示 有 符号 整数 ， 但 是 几乎 所 有 的 机 髓 都 是 这 么 做 的 。 
程序 员 如 果 和 希望 代码 具有 最 大 可 移植 性 ， 能 够 在 所 有 可 能 的 机 器 上 运行 ， 那 么 除了 图 2-10 所 示 
的 那些 范围 之 外 ， 我 们 不 应 该 假设 任何 可 表示 的 数值 范围 ， 也 不 应 该 假设 有 符号 数 会 使 用 何 种 
特殊 的 表示 方式 。 另 一 方面 ， 许 多 程序 的 书写 都 假设 用 补 码 来 表示 有 符号 数 ， 并 且 具 有 图 2-8 和 
图 2-9 所 示 的 “典型 的 ” 取 值 范围 ， 这 些 程序 在 大 量 的 机 器 和 编译 器 上 也 有 可 移植 性 。C 库 中 的 
文件 <Limits .h> 定义 了 一 组 常量 ， 来 限定 编译 器 运行 的 这 人 台 机 器 的 不 同 整 型 数据 类 型 的 取 值 
范围 。 比 如 ， 它 定义 了 常量 INT_MAX、INT_MIN 和 UINT MAX， 它 们 描述 了 有 符号 和 无 符号 整 


数 的 范围 。 对 于 一 个 补 码 的 机 器 ， 数 据 类 型 int 有 w 位， 这 些 常量 就 对 应 于 TMax,,、TMin,, 和 
UMax,, 的 值 。 





确定 大 小 的 整数 类 型 

对 于 某 些 程序 来 说 ， 用 某 个 确定 大 小 的 表示 来 编码 数据 类 型 非常 重要 。 例 如 ， 当 编写 程序 ， 
使 得 机 器 能 够 按照 一 个 标准 协议 在 因特网 上 通信 时 ， 让 数据 类 型 与 协议 指定 的 数据 类 型 兼容 是 非 
常 重要 的 。 我 们 前 面 看 到 了 ， 某 些 C 数据 类 型 ， 特 别 是 1ong 型 ， 在 不 同 的 机 器 上 有 不 同 的 取 
值 范围 ， 而 实际 上 C 语言 标准 只 指定 了 每 种 数据 类 型 的 最 小 范围 ， 而 不 是 确定 的 范围 。 虽 然 我 
们 可 以 选择 与 大 多 数 机 器 上 的 标准 表示 兼容 的 数据 类 型 ， 但 是 这 也 不 能 保证 可 移植 性 。 

ISO C99 标准 在 文件 stdint.h 中 引入 了 另 一 类 整数 类 型 。 这 个 文件 定义 了 一 组 数据 类 型 ， 
它们 的 声明 形 如 intN 七 和 uintN t， 指 定 的 是 入 位 有 符号 和 无 符号 整数 。N 的 具体 值 与 实现 
相关 ， 但 是 大 多 数 编译 器 允许 的 值 为 8、16、32 和 64。 因 此 ， 通 过 将 它 的 类 型 声明 为 uint16 七， 
我 们 可 以 无 歧义 地 声明 一 个 16 位 无 符号 变量 ， 而 如 果 上 声明 为 Int32 七 ， 就 是 一 个 32 位 有 符号 
变量 。 

这 些 数据 类 型 对 应 着 一 组 宏 ， 定 义 了 每 个 NN 的 值 对 应 的 最 小 值 和 最 大 值 。 这 些 宏 名 字形 如 
ININ MIN INTN MAX 和 UINTN MAX。 


关于 整数 数据 类 型 的 取 值 范围 和 表示 ，Java 标准 是 非常 明确 的 。 它 要 求 采用 补 码 表示 ， 取 值 
范围 与 图 2-9 中 64 位 的 情况 一 样 。 在 Java 中 ， 单 字 节 数据 类 型 称 为 pyte， 而 不 是 char， 而 且 
没有 1ong 1long 数据 类 型 。 这 些 非常 具体 的 要 求 都 是 为 了 保证 无 论 在 什么 机 器 上 ，Java 程序 运 
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行 的 表现 都 能 完全 一 样 。 


有 符号 数 的 其 他 表示 方法 
有 符号 数 还 有 两 种 标准 的 表示 方法 : 
反 码 (Ones”Complement) : 除了 最 高 有 效 位 的 权 是 一 (2” 一 1) 而 不 是 -2” ， 它 和 补 码 是 一 
样 的 : 
B2O,(X) =—xy_ 1 1 — D+ x2 
i=0 


原 码 (Sign-Magnitude) : 最 高 有 效 位 是 符号 位 ， 用 来 确定 剩 下 的 位 应 该 取 负 权 还 是 正 权 ， 
B28 (3) = (1 . bp 2 


i=0 | 

这 两 种 表示 方法 都 有 一 个 奇怪 的 属性 ， 那 就 是 对 于 数字 0 有 两 种 不 同 的 编码 方式 。 这 两 种 表 
示 方 法 ， 把 [00…0] 都 解释 为 +0。 而 值 一 0 在 原 码 中 表示 为 [10…0]， 在 反 码 中 表示 为 [11…1]。 
虽然 过 去 生产 过 基于 反 码 表示 的 机 器 ， 但 是 几乎 所 有 的 现代 机 器 部 使 用 补 码 。 我 们 将 看 到 在 浮 点 
数 中 有 使 用 原 码 编码 。 : 

请 注意 补 码 (Two’s complement) 和 反 码 (Ones’ complement) 中 搬 号 的 位 置 是 不 同 的 。 术 语 
补 码 来 源 于 这 样 一 个 情况 ， 对 于 非 负 数 x， 我 们 用 2 一 kx (这 里 只 有 一 个 2) 来 计算 一 x 的 w 位 表示 。 
术语 反 码 来 源 于 这 样 一 个 属性 ， 我 们 用 [111...1] -x 〈 这 里 有 很 多 个 1) 来 计算 一 x 的 反 码 表示 。 


作为 一 个 示例 ， 考 虑 下 面 的 代码 : 


Short x = 12345; 
short mx = ~xX; 


1 

2 

3 

4 show_bytes((byte_pointer) &x, sizeof(short)); 

5 show_bytes((byte_pointer) &mx, sizeof (short)); 
| 


上 i. 


1 024 
2048 

4 096 

8 192 
16 384 
土 32 768 





图 2-14 12 345 和 一 12 345 的 补 码 表 示 ， 以 及 53 191 的 无 符号 表示 。 注 意 后 面 两 个 数 有 相同 的 位 表示 
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当 在 大 端 法 机 器 上 运行 时 ， 这 段 代 码 的 输出 为 30 39 和 cf c7， 指明 x 的 十 六 进 制 表 示 
为 0x3039， 而 mx 的 十 六 进 制 表示 为 0xcFC7。 将 它们 展开 为 二 进 制 ， 我 们 得 到 x 的 位 模式 为 
[0011000000111001]， 而 mx 的 位 模式 为 [1100111111000111]。 如 图 2-14 所 示 ， 等 式 (2-3) 对 这 
两 个 位 模式 生成 的 值 为 12 345 和 一 12 345。 z 
蕊 天 练习 题 2.18 在 第 3 章 ， 我 们 将 看 到 由 反 汇 编 器 生成 的 列表 ， 反 汇编 器 是 一 种 将 可 执行 程序 文件 转换 
回 可 读 性 更 好 的 ASCI 码 形式 的 程序 。 这 些 文件 包含 许多 十 六 进 制 数字 ， 都 是 用 典型 的 补 码 形式 来 表示 
这 些 值 。 能 够 认识 这 些 数 字 并 理解 它们 的 意义 〈 例 如 ， 它 们 是 正 数 还 是 负数 )， 是 一 项 重要 的 技巧 。 
在 下 面 的 列表 中 ， 对 于 标号 为 A 一 工 (标记 在 右边 ) 的 那些 行 ， 将 指令 名 (sub、mov 和 add) 
右边 显示 的 《用 32 位 补 码 形式 表示 的 ) 十 六 进 制 值 转换 为 等 价 的 十 进 制 值 。 





8048337: 81 ec b8 01 00 00 sub $0x1b8, hesp A. 
804833d: 8b 55 08 moV Ox8(%ebp) ,yedx 

8048340: 83 c2 14 add $Ox14,%edx | B. 
8048343: 8b 85 58 fe ff ff moV 0Oxfffffe58(%ebp) ,%eax ©. 
8048349: 03 02 add (%edx) ,Weax 

804834b: 89 85 74 fe ff ff mov Weax ,Oxfffffe74(%ebp) 站 
8048351: 8b 55 08 mov Ox8(%ebp) ,hedx 

8048354: .83 c2 44 add $Ox44 ,pedx E. 
8048357: 8b 85 c8 fe ff ff movV Oxfffffec8(%ebp),%eax FF. 
804835d: 89 02 mov  %eax,(%edx) 

804835f: 8b 45 10 mov Ox10(%ebp) ,%eax ， 二 全 
8048362: 03 45 0c ， ~ add Oxc (hebp) ,heax H. 
8048365: 89 85 ec fe ff ff mov heax ,Oxfffffeec(hebp) I. 
804836b: 8b 45 08 moOV Ox8 (hebp) ,heax 

804836e: 83 co 20 add $0x20 ,Weax J 
8048371: 8b 00 mov (%eax) ,heax 


2.2.4 有 符号 数 和 无 符号 数 之 间 的 转换 

C 语 言 多 许 在 各 种 不 同 的 数字 数据 类 型 之 间 做 强制 类 型 转换 . 例如 ， 假设 变量 x 声明 为 
int，u 声 明 为 unsigned。 表 达 式 (unsigned)x 会 将 x 的 值 转换 成 一 个 无 符号 数值 ， 而 
(int)u 将 u 的 值 转换 成 一 个 有 符号 整数 。 将 有 符号 数 强制 类 型 转换 成 无 符号 数 ， 或 者 反 过 来 ， 
会 得 到 什么 结果 呢 ?” 从 数学 的 角度 来 说 ， 可 以 想象 到 几 种 不 同 的 规则 。 很 明显 ， 对 于 在 两 种 形式 


”中 都 能 表示 的 值 ， 我 们 是 想 要 保持 不 变 的 。 另 一 方面 ， 将 负数 转换 成 无 符号 数 可 能 会 得 到 0。 如 


果 转 换 的 无 符号 数 太 大 以 至 于 超出 了 补 码 能 够 表示 的 范围 ， 可 能 会 得 到 TMax。 不 过 ， 对 于 大 多 
数 C 语言 的 实现 来 说 ， 对 这 个 问题 的 回答 都 是 从 位 级 角度 来 看 的 ， 而 不 是 数 的 角度 。 
比如 说 ， 考 虑 下 面 的 代码 : 


1 short int V = -12345; 
2 unsigned Short uv = (unsigned short) v; 
3 printf("v = %d, uv = Wu\n", Vv, uv); 


在 一 台 采 用 补 码 的 机 器 上 ， 上 述 代 码 会 产生 如 下 输出 : 

V = -12345, uv = 53191 
我 们 看 到 ， 强 制 类 型 转换 的 结果 保持 位 值 不 变 ， 只 是 改变 了 解释 这 些 位 的 方式 。 在 图 2-14 中 
我 们 看 到 过 ， 一 12 345 的 16 位 补 码 表 示 与 53 191 的 16 位 无 符号 表示 是 完全 一 样 的 。 将 short 
int 强制 类 型 转换 为 unsigned short 改变 数值 ， 但 是 不 改变 位 表示 。 

类 似 地 ， 考 虑 下 面 的 代码 : 


1 unsigned u = 4294967295u; /* UMax. 32 */ 
int tu = (int) u; 
3 printf("u = Wu, tu = %d\n", u, tu); 
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在 一 人 台 采 用 补 码 的 机 器 上 ， 上 述 代 码 会 产生 如 下 输出 : 


u = 4294967295, tu = -1 


从 图 2-13 我 们 可 以 看 到 ， 对 于 32 位 字 长 来 说 ， 无 符号 形式 的 4 294 967 295 (UMaxss) 和 补 
码 形式 的 -1 的 位 模式 是 完全 一 样 的 。 将 unsigned int 强制 类 型 转换 成 int， 底 层 的 位 表示 
保持 不 变 。 

对 大 多 数 C 语 言 的 实现 而 言 ， 处 理 同样 字 长 的 有 符号 数 和 无 符号 数 之 间 相互 转换 的 一 般 规 
则 是 : 数值 可 能 会 改变 ， 但 是 位 模式 不 变 。 下 面 我 们 用 更 数学 化 的 形式 来 描述 这 个 规则 。 有 既然 
B2U, 和 B27, 都 是 双 射 ， 它 们 就 有 定义 明确 的 逆 映 射 。 将 U2B, 定义 为 B2U,!， 而 将 72B, 定义 
为 B27,"'。 这 些 函 数 给 出 了 一 个 数值 的 无 符号 或 者 补 码 的 位 模式 。 也 就 是 说 ， 给 定 0< x<2" 范围 
内 的 一 个 整数 x， 函 数 U2B,0x) 会 给 出 x 的 唯一 的 w 位 无 符号 表示 。 相 似 地 ， 当 x 满足 2”! < 
We, a 728,0x) 会 给 出 的 瞧 一 的 w 位 补 码 表示 。 对 于 在 范围 0< x < 2 





系 了 。 

现在 ， 将 函数 UL27 定义 为 [2TCD=B2T(U2B,G9)。 这 个 函数 的 输入 是 一 个 0 ~ 2"_1 之 
间 的 数 ， 结 果 得 到 一 个 -2” ~ 2” 一 1 之 间 的 值 ， 这 里 两 个 数 有 相同 的 位 模式 ， 除 了 参数 是 无 
符号 的 ， 而 结果 是 以 补 码 表 示 的 。 类 似 地 ， 对 于 -2” ~ 2” 一 1 之 间 的 值 x*， 函 数 7T2U,, 定义 为 
7T2U,/(Xx) 三 B2U,(7T2B,(x))， 生 成 一 个 数 的 无 符号 表示 和 x 的 补 码 表示 相同 。 

继续 我 们 前 面 的 例子 ， 从 图 2-14 中 ， 我 们 看 到 72Ui(12345)=53 191， 并 且 U27i653 191)= 一 12 345。 
也 就 是 说 ， 十 六 进 制 表示 写 做 0xCFC7 的 16 位 位 模式 既是 一 12 345 的 补 码 表示 ， 又 是 $3 191 的 
无 符号 表示 。 类 似 地 ， 从 图 2-13 我 们 看 到 72U3( 一 1) = 4 294 967 295， 并 且 L2732(4 294 967 295) = 
一 1。 也 就 是 说 ， 无 符号 表示 中 的 UMax 有 着 和 补 码 表示 的 一 1 相同 的 位 模式 。 

接 下 来 ， 我 们 看 到 函数 U2T 描述 了 从 无 符号 数 到 补 码 的 转换 ， 而 T2U 描述 的 是 补 码 到 无 符 
号 的 转换 。 这 两 个 函数 描述 了 在 大 多 数 C 语言 实现 中 这 两 种 数据 类 型 之 间 的 强制 类 型 转换 效果 。 
练习 题 2.19 利用 你 解答 练习 题 2.17 时 填写 的 表格 ， 填 写 下 列 描述 函数 7T2U, 的 表格 。 

[EE [za 
ee 
I 
| 
I 
i 
| 

为 了 更 好 地 理解 一 个 有 符号 数字 x 和 与 之 对 应 的 无 符号 数 7T2U.,(x) 之 间 的 关系 ， 我 们 可 以 利 
用 它们 有 相同 的 位 表示 这 一 事实 ， 推 导出 一 个 数字 关系 。 比 较 等 式 〈2-1) 和 等 式 (2-3)， 可 以 
发 现 对 于 位 模式 *， 如 果 我 们 计算 B2U,(%) 一 B27(Z) 之 差 ， 从 0 到 w-2 的 位 的 加 权 和 将 互相 抵 
消 掉 ， 剩 下 一 个 值 : B2U,(X)-82T,(X) = xw_1(2” 一 一 2”) = xi2"。 这 就 得 到 一 个 关系 : 人 
=X 2 二 B2T(Z)。 如 果 令 区 = 72B8,(00)， 我 们 束 得 到 以 下 公 SR 

B2U.(T2B,, (00)) = T2U, (x) = x, 12" +x \ (2- 5) 
这 个 关系 对 于 证 明 无 符号 和 补 码 运算 之 间 的 关系 是 很 有 用 的 。 在 x 的 补 码 表示 中 ， 位 x_i 决定 了 
* 是 否 为 负 ， 得 到 












xt+2”, x<0 ee 
72Uor ,>0 | (2-6) 
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比如 说 ， 图 2-15 比较 了 当 w= 4 时 ， 函 数 B2U 和 B27 是 如 何 将 数值 变 成 位 模式 的 。 对 补 码 来 
说 ， 最 高 有 效 位 是 符号 位 ， 我 们 用 带 向 左 箭头 的 条 来 表示 。 对 于 无 符号 数 来 说 ， 最 高 有 效 位 有 正 权 
重 ， 我 们 用 带 回 右 箭头 的 条 来 表示 。 从 补 码 变 为 无 符号 数 ， 最 高 有 效 位 的 权重 从 -8 变 为 +8。 因 此 ， 
补 码 表 示 的 负数 如 果 看 成 无 符号 数 ， 值 会 增加 2 = 16。 因 而 ，--5 变 成 了 +11， 而 -1 变 成 了 +15。 


[1011] 


[1111] 





2-15 ”比较 当 w=4 时 无 符号 表示 和 补 码 表示 《对 补 码 和 无 符号 数 来 说 ， 
最 高 有 效 位 的 权重 分 别 是 -8 和 +8， 因 而 产生 一 个 差 为 16) 
图 2-16 说 明了 函数 727 的 一 般 行为 。 如 图 所 示 ， 当 将 一 个 有 符号 数 映 射 为 它 相 应 的 无 符号 
数 时 ， 负 数 就 被 转换 成 了 大 的 正 数 ， 而 非 负 数 会 保持 不 变 。 


ow 


2” 无 符号 数 





图 2-16 ”从 补 码 到 无 符号 数 的 转换 。 函 数 7T2U 将 负数 转换 为 大 的 正 数 
ES 练习 题 2.20 ”请 说 明 在 解答 练习 题 2.19 时 生成 的 表格 中 ， 你 是 如 何 将 等 式 〈2-6) 应 用 到 其 中 各 项 的 。 
反 过 来 看 ， 我 们 希望 推导 出 一 个 无 符号 数 w 和 与 之 对 应 的 有 符号 数 U2T,(w) 之 间 的 关系 。 如 
果 设 = U2B,(u)， 我 们 得 到 以 下 公式 





B2T (U2B,, (0)) = U2T(W)=—u, 2 +u (2-7) 
在 x 的 无 符号 表示 中 ， 位 wi 决定 了 w 是 否 大 于 或 者 等 于 2” ， 得 到 
X<2"” 
et .or SD (2-8) 


图 2-17 7 说 明 了 这 个 行为 。 对 于 小 的 数 〈 < 2” )， 从 无 符号 到 有 符号 的 转换 将 保留 数字 的 原 
值 。 对 于 大 的 数 (> 2” )， 数 字 将 被 转换 为 一 个 负数 值 。 

总 结 一 下 ， 我 们 考虑 无 符号 与 补 码 表示 之 间 互 相 转 换 的 结果 。 对 于 在 0 <x < 2” 范围 之 
内 的 值 x 而 言 ， 我 们 得 到 7T2U,, (x) = x 和 U2T, (x) = x。 也 就 是 说 ， 在 这 个 范围 内 的 数字 有 相同 
的 无 符号 和 补 码 表示 。 对 于 这 个 范围 以 外 的 数值 ， 转 换 需 要 加 上 或 者 减 去 2"。 例 如 ， 我 们 有 
7T2U, (1)= -1+2 = \ 一 个 极端 ， 我 们 
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可 以 看 到 7T2U, (TMin,)= 一 2 +2=2” = TMaow+ 1 一 一 最 小 的 负数 映射 为 一 个 刚好 在 补 码 的 正 数 
范围 之 外 的 无 符号 数 。 使 用 图 2-14 的 示例 ， 我 们 能 得 到 72Ue(-12345)= 65 563 + 一 12345=53 191。 


无 符号 数 2” 





图 2-17 “从 无 符号 数 到 补 码 的 转换 。 函 数 U27 把 大 于 2“-1 1 的 数字 转换 为 负 值 
2.2.5 C 语言 中 的 有 符号 数 与 无 符号 数 
如 图 2-8 和 图 2-9 所 示 ，C 语言 言 支持 所 有 整 型 数据 类 型 的 有 符号 和 无 符号 运算 。 尽管 C 语言 
标准 没有 指定 有 符号 数 要 采用 某 种 表示 ， 但 是 几乎 所 有 的 机 器 都 使 用 补 码 。 通 常 ， 大 多 数 数字 都 
默认 为 是 有 符号 的 。 例 如 ， 当 声明 一 个 像 12345 或 者 0x1A2B 这 样 的 常量 时 ， 这 个 值 就 被 认为 
是 有 符号 的 。 要 创建 一 个 无 符号 常量 ， 必须 加 上 后 缀 字符 “U” 或 者 .“u’。 例如 ， 12345U 或 者 
0X1LA2Bu。 

C 语言 允许 无 符号 数 和 有 符号 数 之 间 的 转换 。 转 换 的 原则 是 底层 的 位 表示 保持 不 变 。 因 此 ， 
在 一 台 采 用 补 码 的 机 器 上 ， 当 从 无 符号 数 转换 为 有 符号 数 时 ， 效 果 就 是 应 用 函数 U2T,,， 而 从 有 
符号 数 转换 为 无 符号 数 时 ， 就 是 应 用 函数 72U,， 其 中 w 表示 数据 类 型 的 位 数 。 

显 式 的 强制 类 型 转换 就 会 导致 转换 发 生 ， 就 像 下 面 的 代码 : 


int tx, ty; 
unsigned ux, uy; 


tx = (int) ux; 
uy = (unsigned) ty; 

另外 ， 当 一 种 类 型 的 表达 式 被 赋值 给 另外 一 种 类 型 的 变量 时 ， 转换 是 隐 式 发 生 的 ， 就 像 下 面 
的 代码 : 


人 


int tx, ty; 
unsigned ux, uy; 


tx = ux; /* Cast to signed */ 
uy = ty; /* Cast to unsigned */ 


当 用 printf 输出 数值 时 ， 分 别 用 指示 符 %$d、%u 和 %x 以 有 符号 十 进 制 、 无 符号 十 进 制 和 
十 六 进 制 格式 输出 一 个 数字 。 注 意 printf 没有 使 用 任何 类 型 信息 ， 所 以 它 可 以 用 指示 符 su 来 
输出 类 型 为 int 的 数值 ， 也 可 以 用 指示 符 $d 输出 类 型 为 unsigned 的 数值 。 例如 ， 考虑 下 面 
: 


人 人 fi 一 


”int x = -1; 
unsigned u = 2147483648; /* 2 to the 31ist */ 


printf("x = %u = %d\n", x, X); 
printf("u = hu = hd\n", u, u); 


nn 一 


48 。 弟 一 部 分 程序 结 攀 和 落 谨 


当 在 一 个 32 位 机 器 上 运行 时 ， 它 的 输出 如 下 : 
x = 4294967295 = -1 
u = 2147483648 = -2147483648 


在 这 两 种 情况 下 ，printf 首先 将 这 个 字 当 作 一 个 无 符号 数 输出 ， 然 后 把 它 当 作 一 个 有 符号 
数 输出 。 以 下 是 实际 运行 中 的 转换 函数 : T2053,( 一 1) = UMax3s = 2 一 1 和 U273(2”)=2” 一 2 = 
— 2 = TMin;,。 

由 于 C 语言 对 同时 包含 有 符号 和 无 符号 数 表 达 式 的 这 种 处 理 方式 ， 出 现 了 一 些 奇特 的 行 
为 。 当 执行 一 个 运算 时 ， 如 果 它 的 一 个 运算 数 是 有 符号 的 而 另 一 个 是 无 符号 的 ， 那 么 C 语言 会 
隐 式 地 将 有 符号 参数 强制 类 型 转换 为 无 符号 数 ， 并 假设 这 两 个 数 都 是 非 负 的 ， 来 执行 这 个 运算 。 
就 像 我 们 将 要 看 到 的 ， 这 种 方法 对 于 标准 的 算术 运算 来 说 并 无 多 大 差异 ， 但 是 对 于 像 < 和 > 这 
样 的 关系 运算 符 来 说 ， 它 会 导致 非 直观 的 结果 。 图 2-18 展示 了 一 些 关 系 表 达 式 的 示例 以 及 它 
们 得 到 的 求 值 结果 ， 这 里 假设 使 用 的 是 一 台 采 用 补 码 的 32 位 机 器 。 考 虑 比较 式 -1<0U。 因 为 
第 二 个 运算 数 是 无 符号 的 ， 第 一 个 运算 数 就 会 被 隐 式 地 转换 为 无 符号 数 ， 因 此 表达 式 就 等 价 于 
4294967295U<0U (回想 72Q(-1D = .CNMax,)， 这 个 答案 显然 是 错 的 。 其 他 那些 示例 也 可 以 通 
过 相似 的 分 析 来 理解 。 


-1 < 0 


-1 < OU 


2147483647 > -2147483647-1 
2147483647U > -2147483647-1 
2147483647 > (int) 2147483648U 
= 上 > =2 





(unsigned) -1 > -2 
图 2-18 C 语言 的 升级 规则 的 效果 


注 : 非 直观 的 情况 标注 了 “*’。 当 一 个 运算 数 是 无 符号 的 时 候 ， 另 一 个 运算 数 也 被 隐 式 强制 转换 为 无 符号 。 将 
TMimsz 写 为 -2147483647-1 的 原因 请 参见 网 络 劣 注 DATA:TMIN。 


本 练习 题 2.21 假设 在 采用 补 码 运算 的 32 位 机 器 上 对 这 些 表达 式 求 值 ， 护照 图 2-18 的 格式 填写 下 表 ， 
描述 强制 类 型 转换 和 关系 运算 的 结果 。 


表达 式 | 类 型 | 求 什 
-2147483647-1 21474836480 | | 
-2147483647-1 < 214748367 | | 
-2147483647-10 < 214748367 | | 
ae 
| 














| -2147483647-1 < -2147483647 
-2147483647-1U < -2147483647 


网 络 旁 注 DATA:TMIN C 语言 中 TMin 的 写法 : 

在 图 2-18 和 练习 题 2.21 中 ， 我 们 很 小 心地 将 TMin3, 写成 -2147483647-1。 为 什么 不 简单 
地 写成 -2147483648 或 者 0x80000000 ? 看 一 下 C 头 文件 Limits.h， 注 意 到 它们 使 用 了 跟 
我 们 写 TMin3, 和 TMax3s 类 似 的 方法 : 

/* Minimum and maximum values a ‘signed int' can hold. */ 


#define INT_MAX 2147483647 
. #define INT_MIN  (-INT_MAX - 1) 
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不 幸 的 是 ， 补 码 表示 的 不 对 称 性 和 C 语言 转换 规则 之 间 这 种 奇怪 的 交互 ， 迫 使 我 们 用 这 种 
不 寻常 的 方式 来 写 TMin3,。 虽 然 理 解 这 个 问题 需要 我 们 钻研 C 语言 标准 的 一 些 比 较 隐 上 的 角落 ， 
但 是 它 能 够 帮助 我 们 2 


2.2.6 扩展 一 个 数字 的 位 表示 

一 种 常见 的 运算 是 在 不 同 字 长 的 整数 之 间 转 换 ， 同 时 又 保持 数值 不 变 。 当 然 ， 当 目标 数据 类 
型 太 小 以 至 于 不 能 表示 想 要 的 值 时 ， 这 根本 就 是 不 可 能 的 。 然 而 ， 从 一 个 较 小 的 数据 类 型 转换 
到 一 个 较 大 的 类 型 ， 这 应 该 总 是 可 能 的 。 将 一 个 无 符号 数 转换 为 一 个 更 大 的 数据 类 型 ， 我 们 只 
需要 简单 地 在 表示 的 开头 添加 0， 这 种 运算 称 为 替 扩 展 (Zero extension)。 将 一 个 补 码 数字 转换 
为 一 个 更 大 的 数据 类 型 可 以 执行 符号 扩展 (sign extension)， 规 则 是 在 表示 中 添加 最 高 有 效 位 的 
值 的 副本 。 由 此 可 知 ， 如 果 我 们 原始 值 的 位 表示 为 [Xx,_1，x，_，,，…，xXo]， 那 么 扩展 后 的 表示 就 为 
[X11 X22 ，Xo]。( 我 们 用 浅 灰 色 标 出 符号 位 x,_1 来 突出 它们 在 符号 扩展 中 
的 角色 。) 

例如 ， 考 虑 下 面 的 代码 : 


Short sx = -12345; /* -12345 */ 
unsigned Short usx = sx; /+ 53191 */ 
int x = sx; /*¥ ~12345 */ 
.unsigned ux = usx; /* 53191 */ 


printf("sx = %d:\t", sx); 
show_bytes((byte_pointer) &sx, sizeof (short)); 
printf("usx = hu:\t", usx); 

9 show_bytes((byte._pointer) &usx, sizeof (unsigned short) ) ; 
10 printf("x = %d:\t", x); 

11 show_bytes((byte_pointer) &x, sizeof (int)); 

12 printf("ux = %u:\t", ux); 

13 show_bytes((byte_pointer) &ux, sizeof (unsigned) ) ; 


> 人 和 ;一 


在 采用 补 码 表示 的 32 位 大 端 法 机 器 上 运行 这 段 代 码 时 ， 打 印 出 如 下 输出 : 


sx = -12345: cf c7 
usx = 53191: cf c7 
x = -12345: ff ff cf c7 


ux = 53191: O00 00 cf c7 


我 们 看 到 ， 尽 管 -12 345 的 补 码 表示 和 53 191 的 无 符号 表示 在 16 位 字 长 时 是 相同 的 ， 但 是 在 
32 位 字 长 时 却 是 不 同 的 。 特 别 地 ， 一 12 345 的 十 六 进 制 表示 为 0xFFFFCFC7， 而 53 191 的 十 六 进 
制 表示 为 0x0000CFC7。 前 者 使 用 的 是 符号 扩展 一 一 最 开头 加 了 16 位 ， 都 是 最 高 有 效 位 1， 表 示 
为 十 六 进 制 就 是 0xFFFF。 后 者 开头 使 用 16 个 0 来 扩展 ， 表 示 为 十 六 进 制 就 是 0x0000。 

图 2-19 给 出 了 从 字 长 w=3 到 w=4 的 符号 扩展 的 结果 。 位 向 量 [101] 表示 值 -4+ 1= 一 3。 对 它 应 
用 符号 扩展 ， 得 到 位 向 量 [1101]， 表 示 的 值 -8+4+1= 一 3。 我 们 可 以 看 到 ， 对 于 w=4， 最 高 两 位 的 组 
合 值 是 -8+4= 一 4， 与 w=3 时 符号 位 的 值 相同 。 类 似 地 ， 位 向 量 [111] 和 Eo 都 表示 值 一 1。 

如 何 证 明 符 号 扩展 工作 是 否 正确 呢 ? 我 们 想 要 证 明 的 是 

2 7 Xo) 三 B27 (ri Xx 2，...， X0]) 
Ce 





上 次 
这 里 ， 在 表达 式 的 左边 ， 我 们 增加 了 大 位 x%-: 的 副本 。 下 面 的 证 明 是 对 进行 的 归纳 。 也 就 是 
说 ， 如 果 我 们 能 够 证 明 符 号 扩 展 一 位 保持 数值 不 变 ， 那么 符号 扩 展 任意 位 都 能 保持 这 种 属性 。 因 
此 ， 证 明 的 任务 就 变 为 证 明 以 下 等 式 : 和 
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B27 (xb Xn-1 AXy—2,...， X0]) 一 DB27 (xc Xi 一 2，.，.， xo]) 
用 等 式 (2-3) 展开 左边 的 表达 式 ， 得 到 : 


B2T ,n(xw-1, Nm—l 一 2， .+ .+， xo] = 2 再 >》 Xi2 


W—2 . 
= Dw 二 >》 7 

0 
4 的 — 2v- 1)+ + 


= B2T,([Xw1, Xw_2; ..., x0) 


我 们 使 用 的 关键 属性 是 2"-2”= 2”'。 因 此 ， 加 上 一 个 权 什 为 -2" 的 位 ， 和 将 一 个 权 值 为 2” 
的 位 转换 为 一 个 权 值 为 2” 的 位 ， 这 两 项 运算 的 综合 效果 就 会 保持 原始 的 数 人 


[101] 


[1101] 


[111] 
[1111] 


图 2-19 从 w=3 到 w= 4 的 符号 扩展 示例 对 于 w=4， 最 高 两 位 组 合 权重 为 -8+4=—4, 
”与 w=3 时 的 符号 位 的 权重 一 样 
区 测 练习 题 2.22 应 用 等 式 (2-3)， 证 明 下 列 每 个 位 向 量 都 是 一 5 的 补 码 表示 。 
A. [1011] / 
B. [11011] 
CC. [111011] 
可 以 看 到 第 二 个 和 第 三 个 位 向 量 可 以 通过 对 第 一 个 位 向 量 做 符号 扩展 得 到 。 
值得 一 提 的 是 ， 从 一 个 数据 大 小 到 另 一 个 数据 大 小 的 转换 ， 以 及 无 符号 和 有 符号 数字 之 问 的 
转换 的 相对 顺序 能 够 影响 一 个 程序 的 行为 。 考 虑 下 面 的 代码 : 


short sx = -12345; /* -12345 +*/ 
Wen uy = Sx; A Mystery! */ 








0 = hu:\t", uy); 
show_bytes((byte_pointer) &uy, sizeof (unsigned)); 


nN 玫 
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在 一 台大 端 法 机 器 上 ， 这 部 分 代码 产生 如 下 输出 : 

uy = 4294954951: ff ff cf c7 

这 表明 当 把 short 转换 成 unsigned 时 ， 我 们 先 要 改变 大 小 ， 之 后 再 完成 从 有 符号 到 无 符 
号 的 转换 。 也 就 是 说 (unsigned) sx 等 价 于 (unsigned) (int) sx， 求 值得 到 4 294 954 951， 
而 不 等 价 于 (unsigned) (unsigned short) sx， 后 者 求 值得 到 53 191。 事 实 上 ， 这 个 规则 
是 C 语言 标准 要 求 的 。 
从 练习 题 2.23 考虑 下 面 的 C 函数 : 





int funi(unsigned word) { 
return (int) ((word << 24) >> 24); 
} 


int fun2(unsigned word) 
return ((int) word << 24) >> 24; 
} 


假设 在 一 个 采用 补 码 运 算 的 32 位 字 长 的 机 器 上 执行 这 些 函 数 。 还 假设 有 符号 数值 的 右 移 是 算术 右 移 ， 
而 无 符号 数值 的 右 移 是 逻辑 右 移 。 

A. 填写 下 表 ， 说 明 这 些 函 数 对 几 个 示例 参数 的 结果 。 你 会 发 现 用 十 六 进 制 表示 来 做 会 更 方便 ,只 要 记 
住 十 六 进 制 数字 8 到 下 的 最 高 有 效 位 等 于 1。 










0x000000C9 
0xEDCBR987 


B. 用 语言 来 描述 这 些 函 数 执行 的 有 用 的 计算 。 


2.2.7 截断 数字 . z z z - I 
假设 我 们 不 用 额外 的 位 来 扩展 一 个 数值 ， 而 是 减少 表示 一 个 数字 的 位 数 。 例 如 下 面 代 码 中 这 
种 情况 : 人 
1 int x= 53191; 四 
2 Short sx = (short) x; /* -~12345 */ 
cS int y= sx; /* 一 12345 */ 





在 一 台 典 型 的 32 位 机 器 上 ， 当 把 x 强制 类 型 转换 为 short 时 ， 我 们 就 将 32 位 的 int 截断 
为 16 位 的 short int。 就 像 前 面 所 看 到 的 ， 这 个 16 位 的 位 模式 就 是 一 12 345 的 补 码 表 示 。 当 
我 们 把 它 强制 类 型 转换 回 int 时 ， 符 号 扩展 把 高 16 位 设置 为 1， 从 而 生成 一 12 345 的 32 位 补 码 
表示 。 

将 一 个 w 位 的 数 六 [xb xz] 截断 为 一 个 位 数字 时 ， 我 们 会 丢弃 高 w-k 位 ， 得 到 一 
个 位 向 量 部 =[x_ xz xo]。 截 断 一 个 数字 可 能 会 改变 它 的 值 一 一 溢出 的 一 种 形式 。 我 们 现在 
来 研究 什么 样 的 数值 会 产生 这 种 情况 。 对 于 一 个 无 符号 数字 x， 截 断 它 到 位 的 结果 就 相当 于 计 
算 xmod 2*。 通 过 对 等 式 (2-1) 应 用 取 模 运算 就 可 以 得 到 : 
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DB2U (xx 2，...， xo]) mod 2* = 


= B2UL([xx_1, -2 ..., Xo) 
在 这 段 推导 中 ， 我 们 利用 的 属性 是 : 对 于 任何 ?> hb 2mod2=0 和 ;0 2 < 02 =2 一 1< 2 
对 于 一 个 补 码 数字 x， 相 似 的 推理 表明 B2T,, ([x,,_ 1, x, 2,…, x0]) mod 2 = B2 ULxe-b xc Xo]o 
也 就 是 ，x mod 2 能够 被 一 个 位 级 表示 为 [kw… xo] 的 无 符号 数 表示 。 个 过 ， 一 般 而 言 ， 我 们 将 
被 截断 的 数字 视 为 有 符号 的 。 这 将 得 到 数值 U2T,(x mod 2 )。 
总 而 言 之 ， 无 符号 数 的 截断 结果 是 : 
B2U 1 ([xx_1, Xr_2,...， xo)) = B2U, ([xy_1, Xw_2, . i xo]) mod 2* ， (2-9) 
而 补 码 数 字 的 截断 结果 是 : 
DB27T( 1 xxX0h) = 三 CD2TCB2U (xc 1 Xwy_2,...， xo) mod 2 (2-10) 
区 练习 题 2.24 假设 将 一 个 4 位 数值 (用 十 六 进 制 数字 0 一 下 表示 ) 截断 到 一 个 3 位 数值 (用 十 六 进 制 数 
字 0 一 7 表示 )。 Re en 码 解 释 ， 让 情况 的 结果 。 


0 
2 

9 

B 

F 


解释 如 何 将 等 式 (2-9) 和 等 式 〈2-10). 应 用 到 这 些 示例 上 。 
2.2.8 关于 有 符号 数 与 无 符号 数 的 建议 

就 像 我 们 看 到 的 那样 ， 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 导致 了 某 些 非 直观 的 行为 。 而 
这 些 非 直 观 的 特性 经 常 导致 程序 错误 ， 并 且 这 种 包含 隐 式 强制 类 型 转换 细微 差别 的 错误 很 难 被 发 现 。 
因为 这 种 强制 类 型 转换 是 在 代码 中 没有 明确 指示 的 情况 下 发 生 的 ， 程 序 员 经 常 忽视 了 它 的 影响 。 

下 面 两 个 练习 题 说 明了 某 些 由 于 隐 式 强制 类 型 转换 和 无 符号 数据 类 型 造成 的 细微 错误 。 
多 练习 题 2.25 ”考虑 下 列 代码 ， 这 段 代码 试图 计算 数组 a 中 所 有 元 素 的 和 ， 其 中 元 素 的 数量 由 参数 length 给 出 。 











/* WARNING: This is buggy code */ 

float sum.elements(float a[] .insigned length) 二 
int i; 
float result = 0; 


for (i .= 0; i <= Length-1; i++) 
result += a[i]; 


1 
2 
3 
4 
5 
6 
7 
8 ‘return result; 
4 


当 参 数 length 等 于 0 时， 运行 这 段 代码 应 该 返回 0.0。 但 实际 上 ， 运 行 时 会 遇 到 一 个 存储 器 错误 。 
请 解释 为 什么 会 发 生 这 样 的 情况 ， 并 且说 明 如 何 修改 代码 。 
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EM 练习 题 2.26 ”现在 给 你 一 个 任务 ， 写 一 个 函数 用 来 判定 一 个 字符 串 是 否 比 另 一 个 更 长 。 前 提 是 你 要 用 
字符 串 库 函数 strlen， 它 的 声明 如 下 : 





/* prototype for library function strlien 3 
size_t strlen(const char *s); 


最 开始 你 写 的 函数 是 这 样 的 : 


/* Determine whether string s is longer than string t */ 
/* WARNING: This function is buggy */- 
int strlonger(char *s, char *t) { 

return strlen(s) - strlen(t) > 0; 


} 


当 你 在 一 些 示例 数据 上 测试 这 个 函数 时 ， 一 切 似乎 都 是 正确 的 。 进 一 步 研究 发 现在 头 文件 stdio.h 
中 数据 类 型 size 七 是 定义 成 unsigned int 的 。 

A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 

B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 

C. 说 明 如 何 修改 这 段 代 码 好 让 它 能 可 靠 地 工作 。 


函数 getpeername 的 安全 油 洞 

2002 年 ， 从 事 FreeBSD 开源 操作 系统 项 目的 程序 员 意 识 到 ， 他 们 对 getpeername 函数 的 
实现 存在 安全 漏洞 。 代 码 的 简化 版 本 如 下 : 
/* 
* Tllustration of code Vulnerability similar to that found in 


* FreeBSD's implementation of getpeername() 


*/ 


/* Declaration of library function memcpy */ 
void *memcpy(void *dest, void *src, size_t n); 


‘OO PUNO WN 一 


/* Kernel memory region holding user-accessible data */ 
10 #define KSIZE 1024 
11 char kbuf [KSIZE] ; 


13 /* Copy at most maxlen bytes from kernel region to user buffer .*/ 
14 int copy_from_kernel(void *user_dest, int maxlen) { 


15 /* Byte count len is minimum of buffer size and maxlen */ 
16 int len = KSIZE < maxlen ?了 KSIZE : maxlen.; 

17 ‘memcpy (user_dest, kbuf, len); 

18 return len.; : 

19 J} 


在 这 段 代码 里 ， 第 7 行 给 出 的 是 库 函 数 memcpy 的 原型 ， 这 个 函数 是 要 将 一 段 指 定 长 度 为 n 
的 字 节 从 存储 器 的 一 个 区 域 复制 到 另 一 个 区 域 。 

从 第 14 行 开 始 的 函数 copy_from_kernel 是 要 将 一 些 操作 系统 内 核 维护 的 数据 复制 到 指 
定 的 用 户 可 以 访问 的 存储 器 区 域 。 对 用 户 来 说 ， 大 多 数 内 核 维护 的 数据 结构 应 该 是 不 可 读 的 ， 因 
为 这 些 数据 结构 可 能 包含 其 他 用 户 和 系统 上 运行 的 其 他 作业 的 敏感 信息 ， 但 是 显示 为 kbuf 的 区 
域 是 用 户 可 以 读 的 。 参 数 maxlen 给 出 的 是 分 配给 用 户 的 丝 冲 区 的 长 度 ， 这 个 丝 冲 区 是 用 参数 
user_dest 指示 的 。 然 后 ， 第 16 行 的 计算 确保 复制 的 字 节 数据 不 会 超出 源 或 者 目标 缓冲 区 可 
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用 的 范围 。 

不 过 ， 假 设 有 些 拨 有 恶意 的 程序 员 在 调用 copy_from_kernel 的 代码 中 对 maxlen 使 用 
了 负数 值 ， 那 么 ， 于 16 行 的 最 小 值 计 算 会 把 这 个 值 赋 给 1en， 然 后 len 会 作为 参数 mn 被 传递 
给 memcpy。 不 过 ， 请 注意 参数 n 是 被 声明 为 数据 类 型 size 七 的 。 这 个 数据 类 型 是 在 库 文 件 
stdio.h 中 (通过 typedef) 被 声明 的 。 典 型 地 ， 在 32 位 机 器 上 被 定义 为 unsigned int。 
既然 参数 n 是 无 符号 的 ， 那 么 memcpy 会 把 它 当 作 一 个 非常 大 的 正 整 数 ， 并 且 试 图 将 这 样 多 字 
节 的 数据 从 内 核 区 域 复制 到 用 户 的 缓冲 区 。 虽 然 复 制 这 么 多 字 节 (至少 2 个 ) 实际 上 不 会 完成 ， 
因为 程序 会 遇 到 进程 中 非法 地 址 的 错误 ， 但 是 程序 还 是 能 读 到 没有 被 授权 的 内 核 存 储 器 区 域 。 

我 们 可 以 看 到 ， 这 个 问题 是 由 于 数据 类 型 的 不 匹配 造成 的 : 在 一 个 地 方 ， 长 度 参 数 是 有 符号 
数 ; 而 另 一 个 地 方 ， 它 又 是 无 符号 数 。 正 如 这 个 例子 表明 的 那样 ， 这 样 的 不 匹配 会 成 为 缺陷 的 原 
因 ， 划 至 会 导致 安全 漏洞 。 幸 运 的 是 ， 还 没有 案例 报告 有 程序 员 在 FreeBSD 上 利用 了 这 个 漏洞 。 
他 们 发 布 了 一 个 安全 建议 ,“FreeBSD-SA-02:38.signed-error”， 建 议 系统 管理 员 如 何 应 用 补丁 消除 这 个 
漏洞 。 要 修正 这 个 缺陷 ， 只 要 将 copy_from_ kernel 的 参数 maxlen 声明 为 类 型 size 七 ， 也 就 是 
与 memcpy 的 参数 nn 一 致 。 同 时 ， 我 们 也 应 该 将 本 地 变量 len 和 返回 值 声 明 为 size 七 


我 们 已 经 看 到 了 由 于 许多 无 符号 运算 的 细微 特性 ， 尤 其 是 有 符号 数 到 无 符号 数 的 隐 式 转换 ， 
会 导致 错误 或 者 漏洞 的 方式 。 避 人 免 这 类 错误 的 一 种 方法 就 是 绝 不 使 用 无 符号 数 。 实 际 上 ， 除 了 C 
以 外 ， 很 少 有 语言 支持 无 符号 整数 。 很 明显 ， 这 些 语言 的 设计 者 认为 它们 带 来 的 麻烦 要 比 益处 多 
得 多 。 例 如 ，Java 只 支持 有 符号 整数 ， 并 且 要 求 用 补 码 运算 来 实现 。 正 常 的 右 移 运算 符 >> 被 定 
义 为 执行 算术 右 移 。 特 殊 的 运算 符 >>> 被 指定 为 执行 逻辑 右 移 。 

当 我 们 想 要 把 字 仅仅 看 做 是 位 的 集合 ， 并 且 没 有 任何 数字 意义 时 ， 无 符号 数值 是 非常 有 用 
的 。 例 如 ， 往 一 个 字 中 放 和 描述 各 种 布尔 条 件 的 标记 (fag) 时 ， 就 是 这 样 。 地 址 自然 地 就 是 无 
符号 的 ， 所 以 系统 程序 员 发 现 无 符号 类 型 是 很 有 帮助 的 。 当 实现 模 运算 和 多 精度 运算 的 数学 包 
时 ， 数 字 是 由 字 的 数组 来 表示 的 ， 无 符号 值 也 会 非常 有 用 。 


2.3 ”整数 运算 


许多 刚 入 门 的 程序 员 非 常 惊 奇 地 发 现 ， 两 个 正 数 相 加 会 得 出 一 个 负数 ， 并 且 比 较 表 达 式 x<y 
和 比较 表达 式 x-Yy<0 会 产生 不 同 的 结果 。 这 些 属性 是 由 于 计算 机 运算 的 有 限 性 造成 的 。 理 解 计 
算 机 运算 的 细微 之 处 能 够 帮助 程序 员 编写 更 可 靠 的 代码 。 
2.3.1 无 符号 加 法 

考虑 两 个 非 负 整数 x 和 yy， 满足 0 < x, y < 2"-1。 每 个 数 都 能 表示 为 w 位 无 符号 数字 。 然 
而 ， 如 果 计 算 它们 的 和 ， 我 们 就 有 一 个 可 能 的 范围 0 < x + y < 2” 一 2。 表 示 这 个 和 可 能 需要 
w+ 1 位 。 例 如， 图 2-20 展示 了 当 x 和) 有 4 位 表示 时 ， 函 数 x+) 的 坐标 图 。 人 参数 〈 显 示 在 水 
平 轴 上 )〉 取 值 范围 为 0 一 1$， 但 是 和 的 取 值 范围 为 0 一 30。 函 数 的 形状 是 一 个 有 坡度 的 平面 (在 
两 个 维度 上 ， 函 数 都 是 线性 的 )。 如 果 保 持 和 为 一 个 w+1 位 的 数字 ， 并 且 用 它 加 上 另外 一 个 数 
值 ， 我 们 可 能 需要 w+2 个 位 ， 以 此 类 推 。 这 种 持续 的 “ 字 长 膨胀 ”意味 着 ， 要 想 完整 地 表示 算 
术 运 算 的 结果 ， 我 们 不 能 对 字 长 做 任何 限制 。 一 些 编程 语言 ， 例 如 Lisp， 实 际 上 就 支持 无 限 精 
度 的 运算 ,: 允许 任意 的 (当然 ， 要 在 机 器 的 存储 器 限制 之 内 ) 整数 运算 。 更 常见 的 是 ， 编 程 语言 
支持 固定 精度 的 运算 ， 因 此 像 “ 加 法 ”和 “乘法 ”这 样 的 运算 不 同 于 它们 在 整数 上 的 相应 运算 。 

无 符号 运算 可 以 被 视 为 一 种 模 运 算 形式 。 无 符号 加 法 等 价 于 计算 和 模 上 2"。 可 以 通过 简单 
的 丢弃 x+y 的 w+1 位 表示 的 最 高 位 ， 来 计算 这 个 数值 。 比 如 ， 考 虑 一 个 4 位 数字 表示 ，x=9 和 
y=12 的 位 表示 分 别 为 [1001] 和 [1100]。 它 们 的 和 是 21，5 位 的 表示 为 [10101]。 但 是 如 果 丢 弃 最 
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高 位 ， 我 们 就 得 到 [0101]， 也 就 是 十 进 制 值 的 5。 这 就 和 值 21 mod 16 = 5 一 致 。 





图 2-20 整数 加 法 。 对 于 一 个 4 位 的 字 长 ， 其 和 可 能 需要 5 位 


一 般 而 言 ， 我 们 可 以 看 到 ， 如 果 +) < 2”， 则 和 的 wtl 位 表示 中 的 最 高 位 会 等 于 0， 因此 
丢弃 它 不 会 改变 这 个 数值 。 另 一 方面 ， 如 果 2” < 六 +y< 2 ， 则 和 的 w+l 位 表示 中 的 最 高 位 会 
等 于 1， 因 此 丢弃 它 就 相当 于 从 和 中 减 去 了 2”。 图 2-21 说 明 了 这 两 种 情况 。 这 样 会 得 到 一 个 范 
围 0<x+y 一 2”<2” 一 2”=2” 中 的 值 ， 刚 好 等 于 x 与 y 的 和 模 2” 的 结果 。 现 在 定义 参数 x 和 
y 的 运算 +»， 这 里 0 < x,y<2"， 如 下 : : 

X 十 y， XxX+y<2" (2-11) 
XxX+y—2*, 22<x+y<2+1 : 


这 正好 是 在 C 中 执行 两 个 w 位 无 符号 数值 加 法 时 得 到 的 结果 。 


u Ce 
X 了 7》 二 





图 2-21 整数 加 法 和 无 符号 加 法 间 的 关系 。 当 x+y 大 于 2" 一 1 时 ， 其 和 溢出 


一 个 算术 运算 溢出 ， 是 指 完整 的 整数 结果 不 能 放 到 数据 类 型 的 字 长 限制 中 去 。 如 等 式 
(2-11) 所 示 ， 当 两 个 运算 数 的 和 为 2" 或 者 更 大 时 ， 就 发 生 了 溢出 。 图 2-22 展示 了 字 长 w= 4 的 
无 符号 加 法 函数 的 坐标 图 。 这 个 和 是 按 模 2 =16 计算 的 。 当 x+y<16 时 ， 没 有 溢出 ， 并 且 z+4) 
就 是 x+y， 这 对 应 于 图 中 标记 为 “正常 ”的 斜面 。 当 x+?y > 16 时 ， 加 法 溢出 ， 结 果 相 当 于 从 和 
中 减 去 16， 这 对 应 于 图 中 标记 为 “溢出 ”的 斜面 。 
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图 2-22 “无 符号 加 法 〈4 位 字 长 ， 加 法 是 模 16 的 ) 


当 执行 C 程序 时 ， 不 会 将 溢出 作为 错误 而 发 信号 。 不 过 有 的 时 候 ， 我 们 可 能 希望 判定 是 否 
发 生 了 溢出 。 比 如 ， 假 设计 算 s 二 x+»y， 并 且 我 们 想 要 判定 s 是否 等 于 xty。 我 们 声称 当 且 仅 当 
s <x (或 者 等 价 地 8 < y) 时 ， 发 生 了 溢出 。 要 明白 这 一 点 ， 请 注意 x+y > x， 因 此 如 果 's 没有 
溢出 ， 我 们 能 够 肯定 s > x。 另 一 方面 ， 如 果 s 确实 溢出 了 ， 我 们 就 有 s =x+y-2”。 假 设 y<2”， 
我 们 就 有 y 一 2” < 0， 因 此 s=x +(y 一 2”) < x。 在 前 面 的 示例 中 ， 我 们 看 到 9 + 12=5。 由 于 
5 < 9， 我 们 可 以 看 出 发 生 了 溢出 。 

证 级 练 习题 2.27 写 出 一 个 具有 如 下 原型 的 函数 : 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok(unsigned x, unsigned y); 


如 果 参 数 x 和 yy 相 加 不 会 产生 溢出 ， 这 个 函数 就 返回 1。 : 

模 数 加 法 形成 了 一 种 数学 结构 ， 称 为 阿 贝 尔 群 (Abelian group)， 这 是 以 丹麦 数学 家 Niels 
Henrik Abel (1802 ~ 1829) 的 名 字 命 名 。 也 就 说 ， 它 是 可 交换 的 〈 这 就 是 为 什么 叫 “abelian” 
的 地 方 ) 和 可 结合 的 。 它 有 一 个 单位 元 0， 并 且 每 个 元 素 有 一 个 加 法 逆 元 。 考 虑 w 位 的 无 符号 数 
的 集合 ， 执 行 加 法 运算 +%。 对 于 每 个 值 x， 必 然 有 某 个 值 一 ,x 满足 一 ,x +%»x=0。 当 x= 0 时， 加 
法 道 元 显然 是 0。 对 于 x > 0， 考 虑 值 2"-x。 我 们 观察 到 这 个 数字 在 0 < 2"-x < 2" 范围 之 内 ， 并 
且 (x+2"-x) mod 2” = 2” mod 2” = 0。 因 此 ， 它 就 是 x 在 + 下 的 逆 元 。 这 两 种 情况 就 导出 了 对 于 
0 <x<2" 的 等 式 : : : 

i -xz=| WA ny 
. 2"—x, XxX>0 a 
练习 题 2.28 我们 能 用 一 个 十 六 进 制 数字 来 表示 长 度 w=4 的 位 模式 。 对 于 这 些 数 字 的 无 符号 解 妓 ， 

使 用 等 式 (2-12) 填写 下 表 ， 给 出 所 示 数 字 的 无 符号 加 法 逆 元 的 位 表示 〔〈 用 十 六 进 制 形式 )。 
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2.3.2 补 码 加 法 

对 于 补 码 加 法 ， 我 们 必须 确定 当 结果 太 大 (为 正 ) 或 者 太 小 (为 负 ) 时 ， 应 该 做 些 什么 。 给 
定 在 范围 -2 < x,y < 2” 一 1 之 内 的 整数 值 x 和 y,- 它们 的 和 就 在 范围 2” < x+y < 2 一 2 之 
内 ， 要 想 准 确 表 示 ， 可 能 需要 wtl 位 。 就 像 以 前 一 样 ， 我 们 通过 将 表示 截断 到 w 位， 来 避免 数 
据 大 小 的 不 断 扩张 。 然 而 ， 绪 果 却 不 像 模 数 加 法 那样 在 数学 上 感觉 很 熟悉 。 

两 个 数 的 w 位 补 码 之 和 与 无 符号 之 和 有 完全 相同 的 位 级 表示 。 实 际 上 ， 大 多 数 计算 机 使 用 
同样 的 机 器 指令 来 执行 无 符号 或 者 有 符号 加 法 。 因 此 ， 我 们 能 够 定义 字 长 为 w 的 、 运 算数 x 和 
上 的 补 码 加 法 (x 和 yy 满足 一 2”' < x,y < 2”)， 表 示 为 +， 

Xt ye U2T(T2U(x) + T2U Oo) ” (2-13) 

根据 等 式 (2-5), 我 们 可 以 把 7T2U,(x) 写成 zi 2 把 7T2U,(y) 写成 y,_12" +y。 使 用 属 
性 ， 即 + "是 模 2” 的 加 法 ， 以 及 模 数 加 法 的 属性 ， 我 们 就 能 得 到 : 

X + 一 UZ1 (12Uw(x) + T2U,,(y)) 


一 到 和 BB 2" 和 y) mod 2v] 
= U2T,[(x + y) mod 2"] 


消除 了 zx,_12” 和 yy,_12" 这 两 项 ， 因 为 它们 模 2" 等 于 0。 
为 了 更 好 地 理解 这 个 数量 ， 定 义 z 为 整数 和 z=x+y，2 为 2=zmod2， 而 2 为 z=U2Tv(c)。 

数值 z" 等 于 x+ wy。 我 们 分 成 4 种 情况 分 析 ， 如 图 2-23 所 示 。 
1) 一 2” < z < 一 2”。 然 后 ， 我 们 会 有 z= z+2"。 

这 就 得 出 0 < zz < -2”+2'“=2”。 检 查 等 式 (2-8)， 

我 们 看 到 z' 在 满足 z"=z' 的 范围 之 内 。 这 种 情况 称 





为 负 溢 出 (negative overflow)。 我 们 将 两 个 负数 x 稍 名 4 
和 yy 相 加 (这 是 我 们 能 得 到 z < 2”! 的 唯一 方式 )， +2 
得 到 一 个 非 负 的 结果 z"=x+y+2”。 情况 3 
2) -2”" <z<0。 那 么 我 们 又 将 有 z= 
z+2"， 得 到 一 2”!+2"=2”! < z'< 2*。 检 查 等 式 gS 
(2-8)， 我 们 看 到 z' 在 满足 z"=z' 一 2” 的 范围 之 内 ， sa 
因此 z=z 一 2”=z + 2” 一 2”*= z。 也 就 是 说 ， 我 们 的 ; 
补 码 和 z" 等 于 整数 和 x++y。 情况 1 
3) 0 < z < 2”!。 那么 ， 我 们 将 有 z'=z， 得 到 "3 : 
0 <z'< 2”， 因 此 z"=z'=z。 补 码 和 z" 又 等 于 整 ”图 2-23 整数 和 补 码 加 法 之 间 的 关系 ;- 当 -x+y 
数 和 x+y。 小 于 -2” 时 ， 产 生 负 溢出 。 当 它 大 
4) 2” <z<2”。 我 们 又 将 有 z'=z， 得 到 于 2 +1 时 ， 产 生 正 溢出 


2” < z'<2”*。 但 是 在 这 个 范围 内 ， 我 们 有 z"= 四 
2z 一 2"”， 得 到 z=x+y 一 2"。 这 种 情况 称 为 正 溢出 (positive overflow)。 我 们 将 正 数 x 和 y 相 加 (这 
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是 我 们 能 得 到 z > 2”! 的 唯一 方式 )， 得 到 一 个 负数 结果 z=x +y-2”。 
通过 前 面 的 分 析 可 以 证 明 ， 范 围 在 2”! < x ,y < 2”'-1 之 内 的 x 和 yy 实施 运算 +! 时 ， 我 
们 有 下 面 这 样 的 式 子 : 





x 二 y=—22, 2vlexty 正 洲 出 
X + 一 1x 十 y， 一 2 一 x 十 y<2w-1 正常 (2-14) 
X 十 十 275， 二 二 负 注 出 


图 2-24 展示 了 一 些 4 位 补 码 加 法 的 示例 作为 说 明 。 每 个 示例 的 情况 都 被 标号 为 对 应 于 等 式 
(2-14) 的 推导 过 程 中 的 情况 。 注 意 2 = 16， 因 此 负 滋 出 得 到 的 结果 比 整 数 和 大 16， 而 正 溢出 得 
到 的 结果 比 之 小 16。 我 们 包括 了 运算 数 和 结果 的 位 级 表示 。 可 以 观察 到 ， 能 够 通过 对 运算 数 执 
行 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 从 而 得 到 结果 。 


ee 


| 
[1000] [1011] Po eol 四 


图 2-24 补 码 加 法 示例 。 通 过 执行 运算 数 的 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 
可 以 获得 4 位 补 码 和 的 位 级 表示 

图 2-25 前 明了 字 长 w = 4 的 补 码 加 法 。 运 算数 的 范围 为 -8 一 7。 当 x +y< 一 8 时 ， 补 码 加 
法 就 会 负 溢出 ， 导 致 和 增加 了 16。 当 一 8 < x+y<8 时， 加 法 就 产生 x+y。 当 x+y > 8， 加 法 
就 会 正 溢出 ， 使 得 和 减少 了 16。 这 三 种 情况 中 的 每 一 种 都 形成 了 图 中 的 一 个 斜面 。 

等 式 (2-14) 也 让 我 们 认 出 了 哪些 情况 下 会 发 生 洲 出 。 当 x 和 >》 都 是 负数 ， 但 是 
x+w)》> 0 时 ， 我 们 就 会 得 到 负 洲 出。 当 x 和 ?都 是 正 数 ， 但 是 x+*y<-0 时 ， 我 们 会 得 
到 正 溢出 。 

区 汪 练习 题 2.29 按照 图 2-24 的 形式 填写 下 表 。 分 别 列 出 5 位 参数 的 整数 值 、 整 数 和 的 数值 、 补 码 和 的 数 

值 、 补 码 和 的 位 级 表示 ， 以 及 属于 等 式 (2-14) 推导 中 的 哪 种 情况 。 
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/* Determine whether arguments can be dd without overflow */ 
int tadd_ok(int x, int y); 
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如 果 参 数 x 和 y 相 加 不 会 产生 溢出 ， 这 个 函数 就 返回 1。 


卫 练习 题 2.31 你 的 同事 对 你 补 码 加 法 溢出 条 件 的 分 析 有 些 不 耐烦 了 ， 他 给 出 了 一 个 函数 tadq_ok 的 
实现 ， 如 下 所 示 : 
/* Determine whether arguments can be added without oOVerfT1oW */ 
/* WARNING: This code is buggy. */° 
int tadd_ok(int x, int y) { 
int sum = x+y; 
return (sum-x == y) && (sum~y == xX); 





} 
你 看 了 代码 以 后 笑 了 。 解 释 一 下 为 什么 。 


练习 题 2.32 ”你 现在 有 个 任务 ， 编 写 函 数 tsub_ok 的 代码 ， 函 数 的 参数 是 x 和 y， 如 果 计 算 x-y 不 
产生 溢出 ， 函 数 就 返回 1。 假 设 你 写 的 练习 题 2.30 的 代码 如 下 所 示 : 





/* Determine whether arguments can be subtracted without overflow */ 
/* WARNING: This code is buggy. */ 
int tsub_ok(int x, int y) + 
return tadd_ok(x, -~y); 
} 


x 和 Y 取 什么 值 时 ， 这 个 函数 会 产生 错误 的 结果 ? 写 一 个 该 函数 的 正确 版 本 (家 庭 作 业 2.74)。 


3 2 


Le 





. 


图 2-25 ” 补 码 加 法 〈 字 长 为 4 位 的 情况 下 ， 当 x+ty<-8 时 ， 产 生 负 洲 出 ; xty > 8 时 ， 会 产生 正 洲 出 ) 


2.3.3” 补 码 的 非 

我 们 可 以 看 到 范围 在 -2” < x < 2” 中 的 每 个 数字 x 都 有 + 下 的 加 法 道 元 。 首 先 ， 对 于 
x 天 -2”， 我 们 可 以 看 到 它 的 加 法 逆 元 就 是 ~x。 也 就 是 ， 我 们 有 一 2”! < 一 x < 2“ 和 一 x+tx = 
一 x 二 x= 0。 另 一 方面 ， 对 于 x= -2” = 7TNMiz,，- = 2” 不 能 表示 为 一 个 w 位 的 数 。 我 们 声明 ， 
这 个 特殊 值 本 身 就 是 它 在 +, 下 的 加 法 逆 元 。-2”+*-2” 的 值 由 等 式 (2-14) 的 第 三 种 情况 给 
出 ， 因 为 -2” + -2” = -2"。 最 后 得 出 -2” + 一 2” = 一 2”+ 2"= 0。 从 这 个 分 析 中 ， 我 们 可 以 
定义 对 于 范围 -2”" < xz<2” 内 的 x， 补 码 的 非 运算 (negation operation) 一 如下， : 

e 2 一 | es 9 一 | 


NE (2-15) 
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练习 是 2.33 我 们 可 以 用 一 个 十 六 进 制 数 字 来 表示 长 度 w-4 的 位 模式 。 根 据 这 些 数字 的 补 码 的 解释 ， 
填写 下 表 ， 确 定 所 示 数 字 的 加 法 六 元 。 





对 于 补 码 和 无 符号 〈 见 练习 题 2.28) 非 (negation〉 产生 的 位 模式 ， 你 观察 到 什么 ? 


网 络 旁 注 DATA : TNEG ; 补 码 非 的 位 级 表示 

计算 一 个 位 级 表示 的 值 的 补 码 非 有 几 种 聪明 的 方法 。 这 些 技术 很 有 用 《〈 例 如 当 你 在 调试 程序 
的 时 候 遇 到 值 0xfffffffa)， 同 时 它们 也 能 够 让 你 更 了 解 补 码 表示 的 本 质 。 

行 位 级 补 码 非 的 第 一 种 方法 是 对 每 一 位 来 补 ， 再 对 绎 1。 在 C 语 言 中 ， 我 们 可 以 确定 ， 
对 于 任意 整数 值 x， 计 算 表 达 式 一 x 和 一 x++1 和 结果 完全 一 样 。 | 


下 面 是 一 些 字 长 为 4 的 示例 : : 
[0101] 5 | [ll -6 | [1011] -5 
[0111] 7 | [1000] -8 | [1001] -7 
| [1100] ~4 | [0011] 3 | [0100] 4 
[0000] 0 | fl ~1 | fooool] 0 
[1000] -8 | [0111] 7 | [1000] -8 
从 前 面 的 例子 我 们 知道 0xf 的 补 是 0x0, 而 0xa 的 补 是 0x5， 因 而 Oxfffffffa 是 一 6 的 
补 码 表示 。 
计算 一 个 数 x 的 补 码 非 的 第 二 种 方法 是 建立 在 将 位 向 量 分 为 两 部 分 的 基础 之 上 的 ， 假设 大 是 
最 右边 的 1 的 位 置 ， 因 而 义 的 位 级 表示 形 如 [Xi xz Xt 1，0,…, 0]。( 只 要 x 关 0 就 能 够 找 
到 这 样 的 上 k。) 这 个 值 的 非 写 成 二 进 制 格式 就 是 [rp 2 ,~Xirl 1 0,…, 0]。 也 就 是 ， 我 们 对 
位 位 置 大 左边 的 所 有 位 取 反 。 
我 们 用 一 些 4 位 数字 来 说 明 这 个 方法 ， 这 里 用 针 体 来 突出 最 右边 的 模式 1， 0，…，0 : 





[lz00] -4 | [ozoo0] 
[1000] -8 | [1000] -8 


[1017] -5 
[10071] -7 





2.3.4 无 符号 乘法 

:范围 在 0 < x,y < 2 一 ! 内 的 整数 x 和 yy 可 以 表示 为 w 位 的 无 符号 数 ， 但 是 它们 的 乘积 zx : y 
的 取 值 范围 为 0 到 (2" 一 1) = 2 -2”+1 之 间 。 这 可 能 需要 2w 位 来 表示 。 不 过 ，C 语言 中 的 无 符 
号 乘法 被 定义 为 产生 w 位 的 值 ， 就 是 2w 位 的 整数 乘积 的 低 w 位 表示 的 值 。 根 据 等 式 〈2-9)， 这 
可 以 看 作 等 价 于 计算 乘积 模 2"。 因 此 ，w 位 无 符号 乘法 运算 * * 的 结果 为 : 

Xx*%y = (x'y)mod2" | (2-16) 

2.3.5 ” 补 码 乘法 

范围 在 -2” < x,y < 2 和 一 ! 内 的 整数 x 和 yy 可 以 表示 为 位 的 补 码 数字 ， 但 是 它们 的 乘 
积 x.y 的 取 值 范围 在 一 2” 2” 一 1) = -225 2 和 和 -2 和 一 2 和 = 一 2 之 间 。 要 用 补 码 来 表 
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示 这 个 乘积 ， 可 能 需要 2w 位 一 一 大 多 数 情况 下 只 需要 2w 一 1 位 ， 但 是 特殊 情况 2”“ 需要 2w 位 
(包括 一 个 符号 位 0)。 然 而 ，C 语言 中 的 有 符号 乘法 是 通过 将 2w 位 的 乘积 截断 为 w 位 的 方式 实 
现 的 。 根 据 等 式 (2-10)，w 位 的 补 码 乘法 运算 * ， 的 结果 为 : 
x*% y= U2T((x:y) mod 2”) (2-17) 

我 们 认为 对 于 无 符号 和 补 码 乘法 来 说 ， 乘 法 运算 的 位 级 表示 都 是 一 样 的 。 也 就 是 ， 给 定 长 度 
为 w 的 位 同 量 x* 和 》 无 符号 乘积 B2U,(X)* , B2U0,(3) 的 位 级 表示 与 补 码 乘积 B2T,(X)* ,B27,(3》) 
的 位 级 表示 是 相同 的 。 这 表明 机 器 可 以 用 一 种 乘法 指令 来 进行 有 符号 和 无 符号 整数 的 乘法 。 

举例 说 明 ， 图 2-26 给 出 了 不 同 3 位 数字 的 乘法 结果 。 对 于 每 一 对 位 级 运算 数 ， 我 们 执行 无 
符号 和 补 码 乘法 ， 得 到 6 位 的 乘积 ， 然 后 再 把 这 些 乘 积 截 断 到 3 位 。 无 符号 的 截断 后 的 乘积 总 是 
等 于 x'y mod 8。 虽 然 无 符号 和 补 码 两 种 乘法 乘积 的 6 位 表示 不 同 ， 但 是 截断 后 的 乘积 的 位 级 表 
示 都 相同 。 








无 符号 5 [101] 3 [011] 15 [001111] 7 [111] 

无 符号 4 [100] 7 28 [011100] 4 [100] 
a ee | 
无 符号 3 [011] 3 [011] [001001] 1 [oo 
Li icon 

图 2-26 3 位 无 符号 和 补 码 乘法 示例 〈 虽 然 完整 的 乘积 位 级 表示 相同 ， 
但 是 截断 后 的 乘积 的 位 级 表示 都 相同 ) 

为 了 说 明 (无 符号 和 补 码 ) 乘积 的 低位 是 相同 的 ， 设 x =B2T,(X*) 和 y = B27T,(3》) 是 这 些 位 模 
式 表示 的 补 码 值 ， 而 x'=B2U,,(*) 和 y=B2U,(3》) 是 这 些 位 模式 表示 的 无 符号 值 。 根 据 等 式 (2-5)， 


我 们 有 x=x+x,_12” 和 y=y+y,_12"。 计 算 这 些 值 的 乘积 模 2” 得 到 以 下 结果 : 
(x’':y) mod2” = [(x +xy,_12*) :G+ yy_12*)] mod2* 






=[x :y+ Kw 1y + yw x)2" + xw_1yw_122] mod 2* (2-18) 
= (XxX:y)mod2" 
由 于 模 运算 符 ， 所 有 带 有 权重 2” 的 项 都 丢掉 了 ， 因 此 我 们 看 到 x:y 和 x':y' 的 低 w 位 是 相同 的 。 





我 们 可 以 看 出 ，w 位 数字 上 的 无 符号 运算 和 补 码 运算 是 同 构 的 一 一 运算 +5、 一 ，、*， 和 +t、 一 :、 在 位 
级 上 有 相同 的 结果 。 / 


是 下 练习 题 2.35 ”给 你 一 个 任务 ， 开 发 函数 tmult_ok 的 代码 ， 该 函数 会 判断 两 个 参数 相 乘 是 否 会 产生 洲 
出 。 下 面 是 你 的 解决 方案 四 
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第 一 这 分 在 序 结 娩 和 北 并 


/* Determine whether arguments can be Wop De without overflow */ 
int tmult_ok(int x, int y) { 

int p = x*y; 

/* Either x is Zero, or dividing p by x gives y */ 

return !x || p/x == y; 
} 
你 用 x 和 和 y 的 很 多 值 来 测试 这 段 代码 ， 似 乎 都 工作 正常 。 你 的 同事 向 你 挑战 ， 说 :“ 如 果 我 不 能 用 减 
法 来 检验 加 法 是 否 溢出 (参见 练习 题 2.31)， 那 么 你 怎么 能 用 除法 来 检验 乘法 是 否 溢出 呢 ? ” 
按照 下 面 的 思路 ， 用 数学 推导 来 证 明 你 的 方法 是 对 的 。 首 先 ， 证 明 x=0 的 情况 是 正确 的 。 另 外 ， 考 虐 


妙 位 数字 x (x 关 0)、y、p 和 gg， 这 里 p 是 x 和 yy 补 码 乘 法 的 结果 ,而 gg 是 p 除 以 x 的 结果 。 


1. 说 明 x 和 的 整数 乘积 x.y， 可 以 写成 这 样 的 形式 :xp=p+f2"， 其 中 + 隆 0 当 且 仅 当 p 的 计算 溢出 。 
2. 说 明 p 可 以 写成 这 样 的 形式 : p=x:q+r， 其 中 |x| < xl。 z 
3. 说 明 g =y 当 且 仅 当 r=1=0。 


民治 练习 题 2.36 ”对 于 数据 类 型 int 为 32 位 的 情况 ， 设 计 一 个 版 本 的 tmult_ok 函数 〈 见 练习 题 2.35)， 





要 使 用 64 位 精度 的 数据 类 型 1ong Long， 而 不 使 用 除法 。 


XDR 库 中 的 安全 漏洞 
2002 年 ， 人 们 发 现 Sun Microsystems 公司 提供 的 实现 XDR 库 的 代码 有 安全 漏洞 ，XDR 库 


是 一 个 广泛 使 用 的 程序 间 共 享 数据 结构 的 工具 ， 造 成 这 个 安全 漏洞 的 原因 是 程序 会 在 毫 无 察觉 的 
情况 下 产生 乘法 溢出 。 


中 ， 


包含 安全 漏洞 的 代码 与 下 面 所 示 类 似 : 
/* 
* Tllustration of codé vulnerability similar to that found in 
* Sun's XDR library. 
*/ | 
. Void* copy_elements (void *ele_src[], int ele._cnt, size_t ele_size) { 
/* 
* Allocate buffer for ele_cnt objects, each of ele_size bytes 
* and copy from locations designated by ele_src 
*/ 
void *result = malloc(ele_cnt ele_size); 
if (result == NULL) 
/* malloc failed */ 
return NULL ; 
void *next = result; 
int i; 
for (i = 0; i < ele_cnt; i++) { 
/* Copy object i to destination */ 
memcpy (next, ele_src[i], ele._size); 
/* Move pointer to next enoey region */ 


一 
DDN 一 一 避 Nm 人 ww ND ~ 


20 next += ele_size; 
21 } 

22 return result; 

23 } 


函数 copy elements 的 设计 可 以 将 ele_cnt 个 数据 结构 复制 到 第 10 行 的 函数 分 配 的 缓冲 区 
每 个 数据 结构 包含 ele _ size 个 字 节 。 需 要 的 字 节 数 是 通过 计算 ele cnt*ele_ size 得 到 的 。 
想象 一 下 ， 一 个 怀 有 恶意 的 程序 员 用 参数 ele cnt 等 于 1048577 (2”+1)、ele size 等 


于 4096 (2”*) 来 调用 这 个 函数 。 然 后 第 10 行 上 的 乘法 会 溢出 ， 导 致 只 会 分 配 4096 个 字 节 ， 而 不 
是 装 下 这 些 数据 所 需要 的 4294 971 392 个 字 节 。 从 第 16 行 开始 的 循环 会 试图 复制 所 有 的 字 节 ， 超 . 
越 已 分 配 的 缓冲 区 的 界限 ， 因 而 破坏 了 其 他 的 数据 结构 。 这 会 导致 程序 崩 演 或 者 行为 出 党 
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几乎 每 个 操作 系统 都 使 用 了 这 段 Sun 的 代码 ， 像 Internet Explorer 和 Kerberos 验证 系统 这 样 
使 用 广泛 的 程序 都 用 到 了 它 。 计 算 机 紧急 响应 组 (Computer Emergency Response Team，CERT )， 
卡 内 基 一 梅 隆 软件 工程 协会 (Carnegie Mellon Software Engineering Institute) 运行 的 一 个 追踪 安 
全 漏洞 或 失效 的 组 织 ， 发 布 了 建议 “CA-2002-25” 于 是 许多 公司 急忙 对 它们 的 代码 打 补 丁 。 亩 
运 的 是 ， 还 没有 由 于 这 个 漏洞 引起 的 安全 失效 的 报告 。 

库 函 数 calloc 的 实现 中 存在 着 类 似 的 漏洞 。 这 些 已 经 被 修补 过 了 。 


国治 练习 题 2.37 现在 你 的 任务 是 修补 上 述 XDR 代码 中 的 漏洞 。 你 决定 将 待 分 配 字 节 数 设 置 为 数据 类 型 
”long long unsigned， 来 消除 乘法 溢出 的 可 能 性 《至 少 在 32 位 机 器 上 )。 你 把 原来 对 malloc 函 
数 的 调用 (第 10 行 ) 替换 如 下 : 
long long unsigned asize = 
ele_cnt * (long long unsigned) ele_size; 
void *result = malloc(asize); 


A. 这 段 代 码 在 原始 代码 基础 上 有 了 哪些 改进 ? - 
B. 假设 数据 类 型 size 上 t 和 unsigned int 是 一 样 的 ， 并 且 都 是 32 位 长 ， 你 该 如 何 修改 代码 来 消除 
这 个 漏洞 ? 

2.3.6 乘 以 常数 

在 大 多 数 机 器 上 ， 整 数 乘法 指令 相当 慢 ， 需要 10 个 或 者 更 多 的 时 钟 周期 ， 然 而 其 他 整数 运 
算 ( 例 如 加 法 、 减 法 、 位 级 运算 和 移 位 〉 只 需要 1 个 时 钟 周 期 。 因 此 ， 编 译 器 使 用 了 一 项 重要 的 
优化 ， 试 着 用 移 位 和 加 法 运算 的 组 合 来 代替 乘 以 常数 因子 的 乘法 。 首 先 ， 我 们 会 考虑 乘 以 2 的 突 
的 情况 ， 然 后 再 概括 成 乘 以 任意 常数 。 z z 

设 x 为 位 模式 [x,_1, Xx,_2,"…, Xo] 表示 的 无 符号 整数 。 那 么 ， 对 于 任何 上 > 0， 我 们 都 认为 
[Pb X22 Xo, 0,…, 0] 给 出 了 x2” 的 位 级 表示 ， 这 里 右边 增加 了 大 个 0。 这 个 属性 可 以 通过 等 式 
(2-1) 推导 出 来 : 





山 一 ] 
B2UwHkt(xw-b Xw—2, eee ， XO0, 0, eese ， 0]) > 2 
| a 


w—1l1 
= 2 2 
i=0 


= x2* 


对 于 i<w， 我 们 可 以 将 移 位 后 的 位 回 量 截断 到 长 度 w， 得 到 [x xX,4_2,…, Xxo, 0,…, 0]。 根 
据 等 式 (2-9)， 这 个 位 向 量 的 数值 为 x2Amod2” = x*w2*。 因 此 ， 对 于 无 符号 变量 x，C 表达 
式 x<<k 等 价 于 x*pwr2k， 这 里 pwr2k 等 于 2*。 特 别 地 ， 我 们 可 以 用 1U<<k 来 计算 pwr2k。 

通过 类 似 的 推理 ， 我 们 可 以 得 出 ， 对 于 一 个 位 模式 为 k，b x,_2,…, xo] 的 补 码 数 x， 以 及 范围 
在 0 < k<w 内 任意 的 k， 位 模式 [xb xzw exo 0,…, 0] 就 是 xxv2 的 补 码 表示 。 因 此 ， 对 于 
有 符号 变量 x，C 表达 式 x<<k 等 价 于 x * pwr2k， 这 里 pwr2k 等 于 2:。 

注意 ， 无 论 是 无 符号 运算 还 是 补 码 运算 ， 乘 以 2 的 蚌 都 可 能 会 导致 洲 出 。 结 果 表 明 ， 即 使 溢 
出 的 时 候 ， 我 们 通过 移 位 得 到 的 结果 也 是 一 样 的 。 

由 于 整数 乘法 比 移 位 和 加 法 的 代价 要 大 得 多 ， 许 多 C 语言 编译 器 试图 以 移 位 、 加 法 和 减法 
的 组 合 来 消除 很 多 整数 乘 以 常数 的 情况 。 例 如 ， 假设 一 个 程序 包含 表达 式 x*14。 利 用 等 式 14 = 
2 + 2” + 2 ， 编 译 器 会 将 乘法 重 写 为 (x<<3) + (x<<2)+ (x<<1) ， 实 现 了 将 一 个 乘法 替换 为 三 个 
移 位 和 两 个 加 法 。 无 论 x 是 无 符号 的 还 是 补 码 ， 其 至 当 乘 法 会 导致 溢出 时 ， 两 个 计算 都 会 得 到 
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一 样 的 结果 。( 根 据 整 数 运算 的 属性 可 以 证 明 这 一 点 。〉 更 好 的 方法 是 ， 编 译 器 还 可 以 利用 属性 

14=2 一 2 ， 将 乘法 重 写 为 (x<<4) - (x<<1) ， 这 时 只 需要 两 个 移 位 和 一 个 减法 。 

最 注 练习 题 2.38 就 像 我 们 将 在 第 3 章 中 看 到 的 那样 ， LEA 指令 能 够 执行 形 如 (a<<k) +b 的 计算 ， 这 里 
k 等 于 0、1、2 或 3， 而 b 等 于 0 或 者 某 个 程序 值 。 编 译 器 常常 用 这 条 指令 来 执行 常数 因子 乘法 。 例 如 ， 
我 们 可 以 用 (a<<1) ta 来 计算 3*a 
考虑 b 等 于 0 或 者 等 于 a、 k 为 任意 可 能 的 值 的 情况 ， 用 一 条 LEA 指令 可 以 计算 a 的 哪些 倍数 ? 
归纳 一 下 我 们 的 例子 ， 考 虑 一 个 任务 ， 对 于 某 个 常数 K 的 表达 式 x * K 生成 代码 。 编 译 器 会 

将 天 的 二 进 制 表示 表达 为 一 组 0 和 1 交 蔡 的 序列 : 

[(0…0)(1…1) (0…0)…(1…1)]. 

例如 ，14 可 以 写成 [(0...0)(111)(0)]。 考 虑 一 组 从 位 位 置 n 到 位 位 置 m 的 连续 的 1 (n > m)。 
(对 于 14 来 说 ,我 人 有 m=3 和 m= 1。) 我 们 可 以 用 下 面 两 种 不 同形 式 中 的 一 种 来 计算 这 些 位 对 
乘积 的 影响 : 

形式 A : (x<<n) + (x<<n—l1) + … + (x<<m) 

形式 B : (x<<n+l1) - (x<<m) 

把 每 个 这 样 连续 的 1 的 结果 加 起 来 ， 不 用 做 乘法 ， 我 们 就 能 计算 出 x*K。 当 然 ， 选 择 使 用 
移 位 、 加 法 和 减法 的 组 合 ， 还 是 使 用 一 条 乘法 指令 ， 取 决 于 这 些 指 令 的 相对 速度 ， 而 这 些 是 与 机 
器 高 度 相关 的 。 大 多 数 编译 器 只 在 需要 少量 移 位 、 加 法 和 减法 就 足够 的 时 候 才 使 用 这 种 优化 。 

本 练习 题 2.39 对 于 位 位 置 n 为 最 高 有 效 位 的 情况 ， 我 们 要 怎样 修改 形式 B 的 表达 式 ? 

区 SN 练习 题 2.40 对 于 下 面 每 个 玉 的 值 ， 找 出 只 用 指定 数量 的 运算 表达 X* 天 的 方法 ， 这 里 我 们 认为 加 法 









和 减法 的 开销 相当 。 除 了 我 们 已 经 考虑 过 的 简单 的 形式 A 和 也 原则， 你 可 能 会 需要 使 用 一 些 技巧 。 


/ 减法 





区 3 练习 题 2.41 对 于 一 组 从 位 位 置 n 开始 到 位 位 置 m 结束 的 连续 的 1 (n > m)， 我 们 看 到 可 以 产生 两 
种 形式 的 代码 ，A 和 B。 编 译 器 该 如 何 决定 使 用 哪 一 种 呢 ? 

2.3.7” 除 以 2 的 客 

在 大 多 数 机 器 上 ， 整 数 除 法 要 比 整数 乘法 更 慢 一 一 需要 30 个 或 者 更 多 的 时 钟 周期 。 除 以 2 
的 寡 也 可 以 用 移 位 运算 来 实现 ， 只 不 过 我 们 用 的 是 右 移 ， 而 不 是 左 移 。 无 符号 和 补 码 数 分 别 使 用 
逻辑 移 位 和 算术 移 位 来 达到 目的 。 
整数 除法 总 是 含 人 到 零 。 对 于 x > 0. 和 y> 0， 结果 是 ol 这 里 对 于 任何 实数 a，|[aj 定义 
为 唯一 的 整数 a， 使 得 a' < a < ad 1。 例如 ， 13.14]=3, | 一 3.14]= 一 4, 而 [3]=3。 

考虑 对 一 个 无 符号 数 执行 逻辑 右 移 位 的 效果 。 我 们 认为 这 和 除 以 2 有 一 样 的 效果 。 例 如 ， 
图 2-27 给 出 了 在 12 340 的 16 位 表示 上 执行 逻辑 右 移 的 结果 ， 以 及 对 它 执 行 除 以 1、2、16 和 
256 的 结果 。 从 左 端 移入 的 0 以 斜体 表示 。 我 们 还 给 出 了 如 果 用 真正 的 运算 去 做 除法 得 到 的 结 
果 。 这 些 示例 说 明 ， 移 位 总 是 合 人 到 零 ， 这 一 结果 与 整数 除法 的 规则 一 样 。 

为 了 证 明 逻 辑 右 移 和 除 以 2 的 逢 之 间 的 关系 ， 设 x 为 位 模式 [xwi, zw Xo] 表示 的 无 符号 
整数 ， 而 的 取 值 范围 为 0 < k<w。 设 x 为 w-k 位 的 位 表示 [xw_i,x2…, 欢 | 的 无 符号 数 ， 而 x" 
为 大 位 的 位 表示 [x,_1,…,xo] 的 无 符号 数 。 我 们 有 x'=|[x/2*]。 证 明 如 下 : 
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根据 等 式 (2-1)， 我 们 有 x = 2 x 二 可 X22 人 和 x” 二 (xi21。 因 此 ， 我 们 可 
以 把 x 写 为 x=2%+x*。 可 以 观察 到 0< x” < 2 =2* 一 1， 因此 0 < 六 < 这 意味 着 |x "2 |=0.。 
因此 ，|x/2:]=[x'+x"2*|=x'+ [x"2*|=x'。 

对 位 向 量 [Xi, Xx,_2,…, Xo] 逻辑 右 移 pa 得 到 位 回 量 

[0 , 0, ob ov 2 


这 个 位 同 量 有 数值 x"。 因 此 ， Em Xx，C 表达 式 x>>k 等 价 于 x/pwr2k， 这 里 pwr2k 


等 价 于 2 “。 
ET 十 过 


0011000000110100 12340.0 


0001100000011010 6170.0 


0000001100000011 771.25 
0000000000110000 48.203125 


图 2-27 无 符号 数 除 以 2 的 蚌 


现在 考虑 对 一 个 补 码 数 进行 算术 右 移 的 结果 。 对 于 一 个 正 整 数 ， 最 高 有 效 位 为 0， 所 以 效果 
与 逻辑 右 移 是 一 样 的 。 因 此 ， 对 于 非 负数 来 说 ， 算 术 右 移 上 位 与 除 以 2 是 一 样 的 。 作 为 一 个 负 
数 的 例子 ， 图 2-28 给 出 了 对 一 12 340 的 16 位 表示 进行 算术 右 移 不 同位 数 的 结果 。 正 如 我 们 能 看 
到 的 ， 结 果 与 除 以 2 的 需 几 乎 完全 一 样 。 对 于 不 需要 舍 人 的 情况 (KE = 1)， 结 果 是 正确 的 。 但 是 
当 需 要 进行 售 人 时 ， 移 位 导致 结果 向 下 含 人 ， 而 不 是 像 规则 需要 的 那样 向 零售 人 。 例 如 ， 表 达 
式 一 7/2 应 该 得 到 -3， 而 不 是 一 4。 


Te 


1100111111001100 一 12340.0 
7110011111100110 一 0170.0 





1111110011111100 一 771.25 
1111111111001111 —48.203125 


图 2-28 ”进行 算术 右 移 





让 我 们 更 好 地 理解 算术 右 移 的 效果 ， 以 及 如 果 利 用 它 来 执行 除 以 2 的 罕 。 设 x 为 位 模式 
[x Xz Xo] 表示 的 补 码 整数 ， 而 上 的 取 值 范围 为 0 <w。 设 x 为 wk 位 [1x2 …， 
x4] 表示 的 补 码 数 ， 而 x" 为 低位 [xb…， xo] 表示 的 无 符号 数 。 与 分 析 无 符号 情况 类 似 ， 我 们 
有 x = 2%x'+tx"， 而 0 < x"< 24， 得 到 xz = |x/2:j]。 进 一 步 ， 可 以 观察 到 ， 算 术 右 移 位 向 量 [zx，,， 
x,_2"", Xo] 大 位， 得 到 位 向 量 : 

上 Xx] 
它 刚好 就 是 将 [x,_1，x,_2，…，zxt] 从 wk 位 符号 扩展 到 w 位 。 因此 ， 这 个 移 位 后 的 位 向 量 就 
是 |Lx/24] 的 补 码 表示 。 这 个 分 析 证 实 了 我 们 从 图 2-28 的 示例 中 发 现 的 结论 。 

对 于 x > 0， 或 是 不 需要 舍 人 的 时 候 (x" = 0)， 我 们 的 分 析 表 明 这 个 移 位 的 结果 就 是 所 期 户 
的 值 。 不 过 ， 对 于 x < 0 和 y > 0， 整 数 除法 的 结果 应 该 是 [x/y]， 这 里 ， 对 于 任何 实数 a，[a] 被 
定义 为 使 得 a-1 < a < a’ 的 唯一 整数 a'。 也 就 是 说 ， 整 数 除法 应 该 将 为 负 的 结果 向 上 朝 零 合 人 。 
因此 ， 当 有 合 和 人 发生 时 ， 将 一 个 负数 右 移 位 不 等 价 于 把 它 除 以 2:。 这 个 分 析 也 证 实 了 我 们 从 图 
2-28 的 示例 中 发 现 的 结论 。 

我 们 可 以 在 移 位 之 前 “ 偏 置 ”(biasing) 这 个 值 ， 通 过 这 种 方法 修正 这 种 不 合适 的 合 人 。 
这 种 技术 利用 的 属性 是 : 对 于 整数 x 和 任意 y > 0 的 y， 有 [x/y1= |(x + y 一 1)/yj。 例 如 ， 


66 ”第 一 部 分 程序 结 移 夺 区 疗 


当 x=~30 且 y=4, 我 人 有 x+y 一 1= 一 27， 而 [一 30/41= 一 7=[ 一 27/4]。 当 x= 一 32 且 >= 4 时 ， 
我 人 有 x+y 一 1= 一 29， 而 [一 32/41= 一 8 =|[ 一 29/4]。 通 用 的 方式 表达 这 个 关系 二 假设 x 三 万 二 六 
这 里 0 < xr<y, 得 到 (G+y 一 1/y=k+(r+y 一 1)/y， 因 此 [x+y 一 /yj=k+|[(r+y 一 了 yj。 当 r=0 
时 ， 后 面 一 项 等 于 0， 而 当 r > 0 时 ， 等 于 1。 也 就 是 说 ， 通 过 给 x 增加 一 个 偏 量 y 一 1， 然 后 再 
将 除法 向 下 合 人 ， 当 yy 整除 x 时， 我 们 得 到 k， 否 则 ， 就 得 到 + 1。 因 此 ， 对 于 x < 0， 如 果 在 
右 移 之 前 ， 先 将 x 加 上 2 一 1， 那 么 我 们 就 会 得 到 正确 含 人 的 结果 了 。 

这 个 分 析 表 明 对 于 使 用 算术 右 移 的 补 码 机 器 ，C 表达 式 


(0 人 


等 价 于 x/pwr2k， 这 里 pwr2k 等 于 2*。 

图 2-29 说 明 在 执行 算术 右 移 之 前 加 上 一 个 适当 的 偏 量 是 如 何 导致 结果 正确 伟人 的 。 在 第 3 列 ， 
我 们 给 出 了 一 12 340 加 上 偏 量 值 之 后 的 结果 ， 低 大 位 〈 那 些 会 向 右 移 出 的 位 ) 以 斜体 表示 。 我 们 可 
以 看 到 ， 低 位 左边 的 位 可 能 会 加 1， 也 可 能 不 会 加 1。 对 于 不 需要 合 人 的 情况 (k= 1)， 加 上 偏 量 
只 影响 那些 被 移 掉 的 位 。 对 于 需要 舍 人 的 情况 ， 加 上 偏 量 导致 较 高 的 位 加 1， 所 以 结果 会 向 零售 人 。 


MD 十 进 币 | -123402 





1100111111001100 1100111111001100 一 12340.0 
1 1100111111001107 1110011111100110 一 0170.0 
15 1100111111017077 1111110011111101 一 ”1 .25 
255 1101000077007077 T111111111010000 一 48.203125 


图 2-29 补 码 除 以 2 的 宕 《 右 移 之 前 加 上 一 个 偏 量 ， 结 果 向 零 合 人 ) 

区 弹 练 习题 2.42 号 一 个 函数 div16， 对 于 整数 参数 x 返回 x/16 的 值 。 你 的 函数 不 能 使 用 除法 、 模 运 

算 、 乘 法 、 任 何 条 件 语 旬 〈if 或 者 ?:)、 任 何 比较 运算 待 ( 例 如 <、> 或 ==) 或 任何 循环 。 你 可 以 假 

设 数据 类 型 int 是 32 位 长 ， 使 用 补 码 表示 ， 而 右 移 是 算术 右 移 。 

现在 我 们 看 到 ， 除 以 2 的 宕 可 以 通过 逻辑 或 者 算术 右 移 来 实现 。 这 也 正 是 为 什么 大 多 数 机 器 
上 提供 这 两 种 类 型 的 右 移 。 不 幸 的 是 ， 这 种 方法 不 能 推广 到 除 以 任意 常数 。 同 乘法 不 同 ， 我 们 不 
能 用 除 以 2 的 寡 的 除法 来 表示 除 以 任意 常数 天 的 除法 。 
家 练习 题 2.43 ”在 下 面 的 代码 中 ， 我 们 省 略 了 常数 M 和 AN 的 定义 : 


#define M /* Mystery number 1 */ 

#define N /+ Mystery number 2 */ 

int arith(int x, int y) {- 
int result = 0; 
result = x*M + y/N; /* M and N are mystery numbers. */ 
return result; 


} 


我 们 以 某 个 M 和 N 的 值 编译 这 段 代码 。 编 译 器 用 我 们 讨论 过 的 方法 优化 乘法 和 除法 。 下 面 是 将 产生 出 
的 机 器 代码 翻译 回 C 语言 的 结果 : 
/* Translation of assembly code for arith */ 
int optarith(int x, int y) 二 

int t = xX; 

x <<= 5; 

X -= t; 

if (y < 0) y+=7; 
y >>= 3; /* Arithmetic shift */ 
return X+y; 


} | 
 M 和 NN 的 值 为 多 少 ? 
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2.3.8 ”关于 整数 运算 的 最 后 思考 / 
正如 我 们 看 到 的 ， 计 算 机 执行 的 “整数 ”运算 实际 上 是 一 种 模 运算 形式 。 表示 数字 的 有 限 字 
长 限制 了 可 能 的 值 的 取 值 范围 ， 结 果 运 算 可 能 溢出 。 我 们 还 看 到 ， 补 码 表示 提供 了 一 种 既 能 表示 
负数 也 能 表示 正 数 的 灵活 方法 ， 同 时 使 用 了 与 执行 无 符号 算术 相同 的 位 级 实现 ， 这 些 运算 包括 加 
- 法、 减法、 乘法 ， 甚 至 除法 ， 无 论 运算 数 是 以 无 符号 形式 还 是 以 补 码 形式 表示 的 ， 都 有 完全 一 样 
或 者 非常 类 似 的 位 级 行为 。 
我 们 看 到 了 C 语言 中 的 某 些 规定 可 能 会 产生 令 人 意 想 不 到 的 结果 ， 而 这 些 可 能 是 难以 察觉 
和 理解 的 缺陷 的 源头 。 我 们 特别 看 到 了 unsigned 数据 类 型 ， 虽 然 它 概念 上 很 简单 ， 但 可 能 导 
致 即使 是 资深 程序 员 都 意 想 不 到 的 行为 。 我 们 还 看 到 这 种 数据 类 型 会 以 出 平 意料 的 方式 出 现 ， 比 
如 ， 当 书写 整数 常数 和 当 调 用 库 函数 时 。 
了 下 练习 题 2.44 ”假设 我 们 在 对 有 符号 信使 用 补 码 运算 的 32 位 机 器 上 运行 代码 。 对 于 有 符号 值 使 用 的 是 
算术 右 移 ， 而 对 于 无 符号 值 使 用 的 是 逻辑 右 移 。 变 量 的 声明 和 初始 化 如 下 : 


int x = fo0o(); /+* Arbitrary value */ 
int y = bar(); /+ Arbitrary Value */ 





“unsigned ux = xX; 
unsigned.uy = y; 


对 于 下 面 每 个 C 表达 式 ，1) 证 明 对 于 所 有 的 xx 和 Y 值 ， 它 都 为 真 〈 等 于 1) ; 或 者 2) 给 出 使 得 
它 为 假 〈 等 于 0) 的 x 和 Yy 的 值 : 
(x > 0) || (x-1 < 0) 
. (x&7) !=7 || (x<<29 < 0) 
(x * xX) >= 0 
x<0|1|-x<=0 
x>01|-x>=0 


X+y == Uy+Uux 


ORTHHINWP 


。 X 半 ~y + Uy*UX == -XxX 


2.4 浮 点 数 


浮 点 表示 对 形 如 天 = xX2 的 有 理 数 进行 编码 。 它 对 执行 涉及 非常 大 的 数字 〈|Pj>>0)、 非 常 
接近 于 0 (|Pj<<1) 的 数字 ， 以 及 更 普遍 地 作为 实数 运算 的 近似 值 的 计算 ， 是 很 有 用 的 。 

直到 20 世纪 80 年 代 ， 每 个 计算 机 制造 商都 设计 了 自己 的 表示 浮 点 数 的 规则 ， 以 及 对 浮 点 数 
执行 运算 的 细节 。 另 外 ， 它 们 常常 不 会 太 多 地 关注 运算 的 精确 性 ， 而 把 实现 的 速度 和 简便 性 看 得 
比 数 字 精 确 性 更 重要 。 

大 约 在 1985 年 ， 这 些 情况 随 着 IEEE 标准 754 的 推出 而 改变 了 ， 这 是 一 个 仔细 制订 的 表示 
浮 点 数 及 其 运算 的 标准 。 这 项 工作 是 从 1976 年 开始 由 Intel 赞助 的 ， 在 8087 设计 的 同时 ，8087 
是 一 种 为 8086 处 理 器 提供 浮 点 支持 的 芯片 。 他 们 请 William Kahan 〈 加 州 大 学 伯克利 分 校 的 一 位 
教授 ) 作为 顾问 ， 帮 助 设计 未 来 处 理 器 浮 点 标准 。 他 们 支持 Kahan 加 入 一 个 IEEE 资助 的 制订 工 
业 标 准 的 委员 会 。 这 个 委员 会 最 终 采 纳 的 标准 非常 接近 于 Kahan 为 Intel 设计 的 标准 。 目 前 ， 实 
际 上 所 有 的 计算 机 都 支持 这 个 后 来 被 称 为 IEEE 浮 点 的 标准 。 这 大 大 提高 了 科学 应 用 程序 在 不 同 
机 器 上 的 可 移植 性 。 z | 
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IEEE 

电气 和 电子 工程 师 协 会 (IEEE 一 一 读 做 “Eye-Triple-Eee”) 是 一 个 包括 所 有 电子 和 计算 机 技 
术 的 专业 团体 。 它 出 版 刊物 ， 举 办 会 议 ， 并 且 建 立 委员 会 来 定义 标准 ， 内 容 涉及 范围 从 电力 传输 
到 软件 工程 。 


在 本 节 ， 我 们 将 看 到 在 IEEE 浮 点 格式 中 是 如 何 表 示 数 字 的 。 我 们 还 将 探讨 合 入 《rounding) 
的 问题 ， 当 一 个 数字 不 能 被 准确 地 表示 为 这 种 格式 时 ， 就 必须 向 上 调整 或 者 向 下 调整 ， 此 时 就 会 
有 然后 ， 我 们 将 探讨 加 法 、 乘 法 和 关系 运算 符 的 数学 属性 。 许 多 程序 员 认 为 浮 点 数 没 意 

， 往 坏 了 说 ， 深 奥 难 懂 。 我 们 将 看 到 ， 因 为 IEEE 格式 是 定义 在 一 组 小 而 一 致 的 原则 上 的 ， 所 
人 实际 上 是 相当 优雅 和 容易 理解 的 。 

2.4.1 ”二进制 小 数 

理解 浮 点 数 的 第 一 步 是 考虑 含有 小 数值 的 二 进 制 数字 。 首先 ， 让 我 们 来 看 看 更 熟悉 的 十 进 制 
表示 法 。 十 进 制 表示 法 使 用 的 表示 形式 为 : 4,d,_1…didw.d-14-2…d_,， 其 中 每 个 十 进 制 数 4; 的 取 
值 范围 是 0 ~ 9。 这 个 表示 方法 描述 的 数值 4 定义 如 下 : 


“d= 5 10 xd 


i=—n 


数字 权 的 定义 与 十 进 制 小 数 点 符号 〈“… ) 相关 ， 这 意味 着 小 数 点 左边 的 数字 的 权 是 10 的 正 
需 ， 得 到 整数 值 ， 而 小 数 点 右边 的 数字 的 权 是 10 的 负 需 ， 得 到 小 数值 。 例 如 ，12.34i 表示 数字 
1x10!+2x100+3x10-1+4x10 习 =12 祷 

类 似 地 ， 考 虑 一 个 形 如 bb,_1…b1b0.b-1b-2…b_,1b-， 的 表示 法 ， 其 中 每 个 二 进 制 数字 ， 或 者 
称 为 位 ，b; 的 取 值 范围 是 0 和 1， 如 图 2-30 所 示 。 这 种 表示 方法 表示 的 数 b 定义 如 下 : 


b= 过 2 x b; (2-19) 
符号 “.” 现 在 变 为 了 二 进 制 的 点 ， 点 左边 的 位 的 权 是 2 的 正 需 ， 点 右边 的 位 的 权 是 2 的 负 硕 。 
例如 ，101.11, 表示 数字 1 x 22+0x21+1x20+1x2-!+1x2- 一 4 十 0 十 1 十 天 十 艺 一 5j。 


Dm 
2 m-l 


br bm-! ee b, bi bo 。 bi b-»- bs Se Db-n-!1 b-n 
二 ”1/2 








: 1/27" 
图 2-30 小数 的 二 进 制 表 示 。 二 进 制 点 左边 的 数字 的 权 形 如 2， 而 右边 的 数字 的 权 形 如 1/2 
从 等 式 〈2-19) 中 可 以 很 容易 地 看 出 ， 二 进 制 小 数 点 向 左 移动 一 位 相当 于 这 个 数 被 2 除 。 例 
如 ，101.11 表示 数 3343， 而 10.111, 表示 数 2+ 0 十 过 十 4 十 让 =2 和 8。 类似 地 ， 二 进 制 小 数 点 向 右 
移动 一 位 相当 于 将 该 数 乘 2。 例 如 1011.1, 表示 数 8 十 0 十 2 十 1 十 亏 一 11 才 。 
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注意 ， 形 如 0.11…1; 的 数 表示 刚好 小 于 1 的 数 。 例 如 ，0.111111, 表示 入 ， 我 们 将 用 简单 的 
表达 法 1.0-s 来 表示 这 样 的 数值 。 

假定 我 们 仅 考 虑 有 限 长 度 的 编码 ， 那 么 十 进 制 表示 法 不 能 准确 地 表达 像 3 和 3 这 样 的 数 。 类 似 
地 ， 小 数 的 二 进 制 表 示 法 只 能 表示 那些 能 够 被 写成 x<X2 的 数 。 其 他 的 值 只 能 够 被 近似 地 表示 。 
例如 ， 数 字 # 可 以 用 十 进 制 小 数 0.20 精确 表示 。 不 过 ， 我 们 并 不 能 把 它 准 确 地 表示 为 一 个 二 进 制 
小 数 ， 我 们 只 能 近似 地 表示 它 ， 增 加 二 进 制 表示 的 长 度 可 以 提高 表示 的 精度 : 


十 进 抽 
om | 和 ao 
0.0011; 0.187510 
0.00110， 0.187510 
0.001101， 0.20312510 
0.0011010， 0.20312510 
0.00110011, 0.1992187510 
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SIS 








0.125 


5.875 


3.1875 





十 进 制 表 示 


SS 练习 题 2.46 ” 浮 点 运算 的 不 精确 性 能 够 产生 灾难 性 的 后 果 。 
爱国 者 导弹 系统 中 有 一 个 内 置 的 时 钟 ， 其 实现 类 似 一 个 计数 器 ， 每 0.1 秒 就 加 1。 为 了 以 秒 为 
单位 来 确定 时 间 ， 程 序 将 用 一 个 24 位 的 近似 于 1/10 的 二 进 制 小 数值 来 乘 以 这 个 计数 器 的 值 。 特 
别 地 ，L10 的 二 进 制 表达 式 是 一 个 无 穿 序列 0.000110011[0011]…2:， 其 中 ， 方 括号 里 的 部 分 是 无 
限 循 环 的 。 程 序 用 值 x 近 似 地 表示 0.1,， x 只 考虑 这 个 序列 的 二 进 制 小 数 点 右边 的 前 23 位 :x= 
0.00011001100110011001100。( 参 考 练习 题 2.51， 里 面 有 关于 如 何 更 精确 地 近似 表示 0.1 的 讨论 。) 
A.0.1 一 x 的 二 进 制 表示 是 什么 ? / 
，B. 0.1 一 x 的 近似 的 十 进 制 值 是 多 少 ? 
C. 当 系 统 初始 启动 时 ， 时 钟 从 0 开始 ， 并 且 一 直 保 持 计数 。 在 这 个 例子 中 ， 系 统 已 经 运行 了 大 约 100 
个 小 时 。 程 序 计 算出 的 时 间 和 实际 的 时 间 之 差 为 多 少 ? 
D. 系统 根据 一 枚 来 袭 导弹 的 速率 和 它 最 后 被 雷达 侦 测 到 的 时 间 ， 来 预测 它 将 在 哪里 出 现 。 假 定 飞毛腿 
导弹 的 速率 大 约 是 2000 米 每 秒 ， 对 它 的 预测 偏差 了 多 少 ? 
通过 一 次 读 取 时 钟 得 到 的 绝对 时 间 中 的 一 个 轻微 错误 ， 通常 不 会 影响 跟踪 的 计算 。 相 反 ， 它 应 该 
依赖 于 两 次 连续 的 读 取 之 间 的 相对 时 间 。 问 题 是 爱国 者 导弹 的 软件 已 经 升级 ， 可 以 使 用 更 精确 的 函数 
来 读 取 时 间 ， 但 不 是 所 有 的 函数 调用 都 用 新 的 代码 替换 。 结 果 就 是 ， 跟 踪 软 件 一 次 读 取 用 的 是 精确 的 
‘ 时间， 而 另 一 次 读 取 用 的 是 不 精确 的 时 间 [100]。 
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2.4.2 IEEE 浮 点 表示 

前 一 节 中 谈 到 的 定点 表示 法 不 能 很 有 效 地 表示 非常 大 的 数字 。 例 如 ， 表 达 式 5 Xx 2'% 是 用 
101 后 面 跟随 100 个 零 组 成 的 位 模式 来 表示 。 相 反 地 ， 我 们 希望 通过 给 定 x 和 y 的 值 ， 来 表示 形 
如 x X 2 的 数 。 

IEEE 浮 点 标准 用 V=(-1) X M X 2 的 形式 来 表示 一 个 数 : 

。 符 号 〈sign) 8 决定 这 个 数 是 负数 (s=1) 还 是 正 数 (s=0)， 而 对 于 数值 0 的 符号 位 解释 作 

为 特殊 情况 处 理 。 

“尾数 (significand) M 是 一 个 二 进 制 小 数 ， 它 的 范围 是 1 ~ 2-e， 或 者 是 0 ~ 1 一 e。 

。 阶 码 (exponent) 五 的 作用 是 对 浮 点 数 加 权 ， 这 个 权重 是 2 的 次 各 (可 能 是 人 负数 )。 

将 浮 点 数 的 位 表示 划分 为 三 个 字段 ， 分 别 对 这 些 值 进行 编码 : 

。 一 个 单独 的 符号 位 直接 编码 符号 s。 

“大 位 的 阶 码 字段 exp = e_1…eieo 编码 阶 码 EB。 

“1 位 小 数字 段 frac = f_.…fih 编码 尾数 M， 但 是 编码 出 来 的 值 也 依赖 于 阶 码 字 段 的 值 是 否 

等 于 0。 

图 2-31 给 出 了 将 这 三 个 字段 装 进 字 中 两 种 最 常见 的 格式 。 在 单 精 度 浮 点 格式 〈C 语言 中 的 
float) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、k= 8 位 和 n= 23 位 ， 得 到 一 个 32 位 的 表示 。 
在 双 精 度 浮 点 格式 〈C 语言 中 的 double) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、k= 11 位 和 n= 
52 位 ， 得 到 一 个 64 位 的 表示 。 


单 精度 
31 30 23 22 0 











ac(3l: 0) = 


图 2-31 标准 肖 点 格式 ( 浮 点 由 3 个 字段 表示 ， 两 种 最 常见 的 格式 是 它 们 
被 封装 到 32 位 〈 单 精度 ) 和 64 位 〈 双 精度 ) 的 字 中 ) 
给 定 了 位 表示 ， 根 据 exp 的 值 ， 被 编码 的 值 可 以 分 成 三 种 不 同 的 情况 〈 最 后 一 种 情况 有 两 
个 变种 )。 图 2-32 说 明了 对 单 精度 格式 的 情况 。 
1. Re 





图 2-32 单 精度 浮 点 数值 的 分 类 〔 阶 码 的 值 决 定 了 这 个 数 是 规格 化 的 、 非 规格 化 的 、 或 特殊 值 》 


情况 1 ; 规格 化 的 值 
这 是 最 普遍 的 情况 。 当 exp 的 位 模式 既 不 全 为 0 (数值 0)， 也 不 全 为 1 ( 单 精度 数值 为 
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255， 双 精度 数值 为 2047) 时 ， 都 属于 这 类 情况 。 在 这 种 情况 中 ， 阶 码 字段 被 解释 为 以 偏 置 
(biased) 形式 表示 的 有 符号 整数 。 也 就 是 说 ， 阶 码 的 值 是 = e-Bias， 其 中 e 是 无 符号 数 ， 其 位 
表示 为 EC/-1 “CE160， 而 Bias 是 一 个 等 于 2™—] ( 单 精 度 是 127， 双 精 度 是 1023) 的 偏 置 值 。 由 此 
产生 指数 的 取 值 范围 ， 对 于 单 精度 是 -126 ~ +127， 而 对 于 双 精 度 是 一 1022 ~ +1023。 

对 小 数字 段 frac 的 解释 为 描述 小 数值 f。， 其 中 0 < f< 1， 其 二 进 制 表示 为 0f,1… 有 i 有， 也 
就 是 二 进 制 小 数 点 在 最 高 有 效 位 的 左边 。 尾 数 定义 为 M= 1+f。 有 时 ， 这 种 方式 也 叫做 隐 含 的 以 
1 开头 的 (implied leading 1) 表示 ， 因 为 我 们 可 以 把 M 看 成 一 个 二 进 制 表 达 式 为 1/ Am… 六 的 
数字 。 既 然 我 们 总 是 能 够 调整 阶 码 EE， 使 得 尾数 M 在 范围 1 < M< 2 之 中 (假设 没有 溢出 )， 那 
么 这 种 表示 方法 是 一 种 轻松 获得 一 个 额外 精度 位 的 技巧 。 由 于 第 一 位 总 是 等 于 1， 因 此 我 们 就 不 
需要 显 式 地 表示 它 。 

情况 2 : 非 规格 化 的 值 

当 阶 码 域 为 全 0 时 ， 所 表示 的 数 就 是 非 规格 化 形式 。 在 这 种 情况 下 ， 阶 码 值 是 已 = 1 Bias， 
而 尾数 的 值 是 M=f， 也 就 是 小 数字 段 的 值 ， 不 包含 隐 含 的 开头 的 1。 


对 于 非 规格 化 值 为 什么 要 这 样 设置 偏 置 值 
使 阶 码 值 为 1 一 Bias 而 不 是 简单 的 一 Bias 似乎 是 违反 直觉 的 。 我 们 将 很 快 看 到 ， 这 种 方式 提 
供 了 一 种 从 非 规 格 化 值 平 滑 转 换 到 规格 化 值 的 方法 。 


非 规格 化 数 有 两 个 用 途 。 首 先 ， 它 们 提供 了 一 种 表示 数值 0 的 方法 ， 因 为 使 用 规格 化 数 ， 我 
们 必须 总 是 使 M > 1， 因 此 我 们 就 不 能 表示 0。 实 际 上 ，+0.0 的 浮 点 表示 的 位 模式 为 全 0 : 符号 
位 是 0， 阶 码 字 段 全 为 0〈 表 明 是 一 个 非 规格 化 值 )， 而 小 数 域 也 全 为 0， 这 就 得 到 M =f= 0。 仿 
人 奇怪 的 是 ， 当 符号 位 为 1， 而 其 他 域 全 为 0 时 ， 我 们 得 到 值 -0.0。 根 据 IEEE 的 浮 点 格式 ， 认 
为 值 +0.0 和 一 0.0 在 某 些 方面 是 不 同 的 ， 而 在 其 他 方面 是 相同 的 。 

非 规格 化 数 的 另外 一 个 功能 是 表示 那些 非常 接近 于 0.0 的 数 。 它 们 提供 了 一 种 属性 ， 称 为 逐 
渐 溢 出 〈gradual underflow)， 其 中 ， 可 能 的 数值 分 布 均匀 地 接近 于 0.0。 | 

情况 3 : 特殊 值 

最 后 一 类 数值 是 当 指 阶 码 全 为 1 的 时 候 出 现 的 。 当 小 数 域 全 为 0 时， 得 到 的 值 表示 无 穷 ， 当 
s=0 时 是 + ,或 者 当 s= 1 时 是 - < 。 当 我 们 把 两 个 非常 大 的 数 相 乘 ， 或 者 除 以 零 时 ， 无 穷 能 
够 表示 溢出 的 结果 。 当 小 数 域 为 非 零 时 ， 结 果 值 被 称 为 “NaN”， 就 是 “不 是 一 个 数 ”(Not a 
Number) 的 缩写 。 一 些 运 算 的 结果 不 能 是 实数 或 无 穷 ， 就 会 返回 这 样 的 NaN 值 ， 比 如 当 计 算 
VY 一 1 或 w 一 时。 在 某 些 应 用 中 ， 表 示 未 初始 化 的 数据 时 ， 它们 也 很 有 用 处 。 : 
2.4.3 ”数字 示例 

图 2-33 展示 了 一 组 数值 ， 它们 可 以 用 假定 的 6 位 格式 来 表示 ， 有 k= 3 的 阶 码 位 和 n=2 的 
尾数 位 。 偏 置 量 是 2” 一 1 = 3。 图 中 的 A 部 分 显示 了 所 有 可 表示 的 值 (除了 NaN)。 两 个 无 穷 值 





一 0 一 10 = 0 十 3 十 10 十 oo 


。 规格 化 的 “^ 非 规格 化 的 ”6 无 
_ 完整 范围 
—0 二 0 


—1 -08 -06 -04 -02 0 +02 +04 +0.6 +0.8 +1 
e 规格 化 的 ”a 非 规格 化 的 。” 日 无 穷 
b) -1.0 至 +1.0 之 间 的 值 


图 2-33 6 位 浮 点 格式 可 表示 的 值 (上 = 3 的 阶 码 位 , n = 2 的 尾数 位 ， 偏 置 量 为 3) 
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在 两 个 未 端 。 最 大 数量 值 的 规格 化 数 是 土 14。 非 规格 化 数 聚 集 在 0 的 附近 。 图 的 B 部 分 中 ,我 
们 只 展示 了 介 于 -1.0 和 +1.0 之 间 的 数值 ， 这 样 就 能 够 看 得 更 加 清楚 了 。 两 个 零 是 特殊 的 非 规格 
化 数 。 可 以 观察 到 ， 那 些 可 表示 的 数 并 不 是 均匀 分 布 的 一 越 靠 近 原点 处 它们 越 稠密 。 

图 2-34 展示 了 假定 的 8 位 浮 点 格式 的 示例 ， 其 中 有 = 4 的 阶 码 位 和 = 3 的 小 数位 。 偏 置 
量 是 2 和 :一 1-7。 图 被 分 成 了 三 个 区 域 ， 用 来 描述 三 类 数字 。 不 同 的 列 给 出 了 阶 码 字段 是 如 何 编码 
阶 码 巨 的， 小 数字 段 是 如 何 编码 尾数 M 的 ， 以 及 它们 一 起 是 如 何 形成 要 表示 的 值 六 = 2 Xx M 
的 。 从 0 自身 开始 ， 最 靠近 0 的 是 非 规格 化 数 。 这 种 格式 的 非 规格 化 数 的 已 = 1-7 = -6， 得 到 权 

25= 十 。 小 数 / 的 值 的 范围 是 0, 号, . ..，?,， 从 而 得 到 数 了 的 范围 是 0~ 二 xz = 已。 


| 


0 0000 000 
最 小 的 非 规格 化 数 0 0000 001 
0 0000 010 
0 0000 011 


0.001953 
0.003906 
0.005859 
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0.017378 
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0 0001 001 
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0 0110 110 
0 0110 111 
0 0111 000 
0 0111 001 
0 0111 010 
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图 2-34 8 位 浮 点 格式 的 非 负 值 示 例 


这 种 形式 的 最 小 规格 化 数 同样 有 EE=1-7 =-6， 并 且 小 数 取 值 范围 也 为 0, 8, ...，#。 然 而 ， 
尾数 的 范围 在 1+ 0= 1 和 1 十 志 = 墓 之 间 ， 得 出 数 天 的 范围 在 区 = 二 和 弦 之 间 。 

可 以 观察 到 最 大 非 规格 化 数 5 五 和 最 小 规格 化 数 55 之 间 的 平滑 转变 。 这 种 平滑 性 归功 于 我 们 
对 非 规格 化 数 的 巨 的 定义 。 通 过 将 已 定义 为 1-Bias， 而 不 是 一 Bias， 我 们 可 以 补偿 非 规格 化 数 
的 尾数 没有 隐 含 的 开头 的 1 这 一 事实 。 

当 增 大 阶 码 时 ， 我 们 成 功 地 得 到 更 大 的 规格 化 值 ， 通 过 1.0 后 得 到 最 大 的 规格 化 数 。 这 个 数 
具有 阶 码 = 7， 得 到 一 个 权 2 = 128。 小 数 等 于 3 得 到 尾数 M= 嘻 。 因 此 ， 数 值 是 了 = 240。 超 出 
这 个 值 就 会 溢出 到 + = 。 

这 种 表示 具有 一 个 有 趣 的 属性 ， 假 如 我 们 将 图 2-34 中 的 值 的 位 表达 式 解释 为 无 符号 整数 ， 
它们 就 是 按 升序 排列 的 ， 就 像 它们 表示 的 浮 点 数 一 样 。 这 不 是 偶然 的 一 IEEE 如 此 设计 格式 就 
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是 为 了 浮 点 数 能 够 使 用 整数 排序 函数 来 进行 排序 。 当 处 理 负 数 时 ， 有 一 个 小 的 难点 ， 因 为 它们 有 
开头 的 1， 并且 它们 是 按照 降序 出 现 的 ， 但 是 不 需要 浮 点 运算 来 进行 比较 也 能 解决 这 个 问题 〈 参 
见 家 庭 作 业 2.83 )。 

练习 题 2.47 假设 一 个 基于 IEEE 浮 点 格式 的 5 位 浮 点 表示 ， 有 1 个 符号 位 、2 个 阶 码 位 (KE= 2) 和 
两 个 小 数位 (ma = 2)。 阶 码 偏 置 量 是 2 一 -1= 1。 

下 表 中 列举 了 这 个 5 位 浮 点 表示 的 全 部 非 负 取 值 范围 。 使 用 下 面 的 条 件 ， 填 写 表 格 中 的 空白 项 : 

e : 假定 阶 码 字 段 是 一 个 无 符号 整数 表示 的 值 。 

五 : 偏 置 之 后 的 阶 码 值 。 

25 : 阶 码 的 权重 数 。 

厂 : 小 数值 。 

M: 尾数 的 值 。 

2 X M: 该 数 (未 归 约 的 ) 小 数值 。 

玉 : 该 数 归 约 后 的 小 数值 。 

十 进 制 : 该 数 的 十 进 制 表示 。 

写 出 2、 太 M、 2 ” X M 和 大 的 值 要么 是 整数 《如 果 可 能 的 话 )， 要 人 么 是 形 如 y 的 小 数 ， 这 里 是 2 
的 究 。 标 注 “ 一 ”的 条 目 不 用 填 。 z 
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图 2-35 展示 了 一 些 重要 的 单 精度 和 双 精 度 浮 点 数 的 表示 和 数字 值 。 根 据 图 2-34 中 展示 的 8 
位 格式 ， 我 们 能 够 看 出 有 大 位 阶 码 条 位 小 数 的 浮 点 表示 的 一 般 属性 。 

。 值 +0.0 总 有 一 个 全 为 0 的 位 表示 。 

* 最 小 的 正 非 规格 化 值 的 位 表示 ， 是 由 最 低 有 效 位 为 1 而 其 他 所 有 位 为 0 构成 的 。 它 具有 小 
数 (和 尾数 ) 值 M= /= 2 和 阶 码 值 已 = -241+2。 因 此 它 的 数字 值 是 矿 = 2 一 交 。 

“ 最 大 的 非 规格 化 值 的 位 模式 是 由 全 为 0 的 阶 码 字段 和 全 为 1 的 小 数字 段 组 成 的 。 它 有 小 
数 〈 和 尾数 ) 值 M = /= 1-2 ”( 我 们 写成 1-s) 和 阶 码 值 = -2 + 2。 因 此 ， 数值- 

(=-2 门 X 2 *#， 这 仅 比 最 小 的 规格 化 值 小 一 点 。 

* 最 小 的 正规 格 化 值 的 位 模式 的 阶 码 字段 的 最 低 有 效 位 为 1， 其 他 位 全 为 0。 它 的 尾数 值 M = 
1， 而 阶 码 值 EE= -2 所 +2。 因 此 ， 数 值 了 = 2 志 。 由 
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“ 值 1.0 ee 以 外 ， 其 他 位 都 等 于 0。 它 的 尾数 值 是 
MM= 1， 而 它 的 阶 码 值 是 5= 0。 

ee 0， 阶 码 的 最 低 有 效 位 等 于 0， 其 他 位 等 于 1 它 的 小 
数值 = 1-2"， 尾 数 M = 2-2”( 我 们 写作 2- se)。 它 的 阶 码 值 = 2 ”一 1， 得 到 数值 = 
(2 一 2X2 一 = (] 一 一 20X22 


最 小 非 规格 化 数 ee i 2—23 x 2 一 126 一 2-52 x 2-1022 |4.9 x 6 一 324 


最 大 非 规格 化 数 ee a (1—e) x2-12% | 12x10-38 | (1—e) x2-1022 |2.2 x 10-308 
最 小 规格 化 数 5 1 x 2-126 1.2 x 10-38 1x2-1% |22 x 10-308 
1 a a 1 x 20 1.0 1x20 1.0 

最 大 规格 化 数 5 (2—e) x2127 | 3.4 x 1038 (2 一 5) x21023 | 1.8 x 10308 


图 2-35” 非 负 浮 点 数 的 示例 


练习 把 一 些 整 数值 转换 成 浮 点 形式 对 理解 浮 点 表示 很 有 用。 例如 ， 在 图 2-14 中 我 们 看 
到 12 3453 具有 二 进 制 表示 [11000000111001]。 通 过 将 二 进 制 小 数 点 左 移 13 位 ， 我 们 创建 
这 个 数 的 一 个 规格 化 表示 ， 得 到 12345 = 1.1000000111001,X23。 为 了 用 IEEE 单 精度 形式 
来 编码 ， 我 们 丢弃 开头 的 1， 并 且 在 末尾 增加 10 个 0， 来 构造 小 数字 段 ， 得 到 二 进 制 表示 
[10000001110010000000000]。 为 了 构造 阶 码 字段 ， 我 们 用 13 加 上 偏 置 量 127， 得 到 140， 其 二 
进 制 表示 为 [10001100]。 加 上 符号 位 0， 我 们 就 得 到 二 进 制 的 浮 点 表示 [010001100100000011100 
10000000000]。 回 想 2.1.4 节 ， 我 们 观察 到 整数 值 12345 (0x3039) 和 单 精度 浮 点 值 12345.0 
(0x4640E400) 在 位 级 表示 上 有 下 列 关系 : z 

z 0 0 0 0 3 0 3 9 


00000000000000000011000000111001 
六 六 六 冰冰 六 冰冰 六 冰冰 冰冰 


4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


现在 我 们 可 以 看 到 ， 相 关 的 区 域 对 应 于 整数 的 低位 ， 刚 好 在 等 于 1 的 最 高 有 效 位 之 前 停止 
ee 1)， 和 浮 li a 匹配 的 。 








点 数 35105935 0 We 0x4A564504。 推导 这 个 点 表示 ， 并 解释 整数 和 浮 点 数 
”表示 的 位 之 间 的 关系 。 
ES 练习 题 2.49 
A. 对 于 一 种 具有 nn 位 小 数 的 浮 点 格式 ， 给 出 不 能 准确 描述 的 最 小 正 整数 的 公式 (因为 要 想 准确 表示 它 
”需要 n+l 位 小 数 )。 假 设 阶 码 字段 长 度 大 足够 大 ， 可 以 表示 的 阶 码 范围 不 会 限制 这 个 问题 。 
B. 对 于 单 精度 格式 (n= 23)， 这 个 整数 的 数字 什 是 多 少 ? 
2.4.4 舍 入 
因为 表示 方法 限制 了 浮 点 数 的 范围 和 精度 ， 浮 点 运算 只 能 近似 地 表示 实数 运算 。 因 此 ， 对 于 
值 x， 我 们 一 般 想 用 一 种 系统 的 方法 ， 能 够 找到 “最 接近 的 ”匹配 值 x*， 它 可 以 用 期 望 的 浮 点 形 
式 表 示 出 来 。 这 就 是 舍 入 (rounding) 运算 的 任务 。 一 个 关键 问题 是 在 两 个 可 能 值 的 中 间 0 确定 合 
人 方向 。 例 如， 如 果 我 有 1.50 美元 ， 想 把 它 含 人 到 最 接近 的 美元 数 ， 应 该 是 1 美元 还 是 2 美元 
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呢 ? 一 种 可 选择 的 方法 是 维持 实际 数字 的 下 界 和 上 界 。 例 如 ， 我 们 可 以 确定 可 表示 的 值 x 入， 
使 得 x 的 值 位 于 它们 之 间 : x ” < x < x。IEEE 浮 点 格式 定义 了 四 种 不 同 的 倒 入 方式 。 加 认 的 广 
法 是 找到 最 接近 的 匹配 ， 而 其 他 三 种 可 用 于 计算 上 界 和 下 界 。 

图 2-36 举例 说 明了 应 用 四 种 舍 和 人 方式， 将 一 个 金额 数 合 人 到 最 接近 的 整数 美元 数 。 向 偶数 
合 和 人 round-to-even)， 也 称 为 向 最 接近 的 值 合 和 人 round-to-nearest)， 是 默认 的 方式 ， 试 图 找到 
一 个 最 接近 的 匹配 值 。 因 此 ， 它 将 1.40 美元 伟人 成 1 美元 ， 而 将 1.60 美元 伟人 成 2 美元， 因为 
它们 是 最 接近 的 整数 美元 值 。 唯 一 的 设计 决策 是 确定 两 个 可 能 结果 中 间 数 值 的 舍 和 效果。 向 偶数 
舍 和 方式 采取 的 方法 是 : 将 数字 向 上 或 者 巾 下 舍 人 ， 使 得 结果 的 最 低 有 效 数 字 是 偶数 。 因 此 ， 这 
种 方法 将 1.5 美元 和 2.5 美元 都 含 人 成 2 美元 。 


WAK |] 
人 | 1 | 
FS 入 | 1 
| 和 FA | 2 





图 2-36 ”以 美元 为 例 说 明 舍 入 方式 (单位 为 美元 ) 


其 他 三 种 方式 产生 实际 值 的 确 界 (guaranteed bound)。 这 些 方法 在 一 些 数 字 应 用 中 是 很 有 用 
的 。 癌 零 舍 入 方式 把 正 数 向 下 舍 人 和 人， 把 负数 向 上 舍 人 ， 得 到 值 *， 使 得 |x*| < |x|。 向 下 舍 入 方 
rs ee a ds 
es x ， 满 足 x 志 x 。 








么 理由 偏向 取 偶数 呢 ? 为 什么 不 始 
并 反 位 于 两 个 可 表示 的 值 中 间 的 信者 向 上 合 人 呢 ? 使 用 这 各 方法 的 一 个 问题 就 是 很 容易 候 根 到 这 
样 的 情景 : 这 种 方法 合 人 一 组 数值 ， 会 在 计算 这 些 值 的 平均 数 中 引入 统计 偏差 。 我 们 采用 这 种 方 
” 式 合 人 得 到 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 高 一 些 。 相 反 ， 如 果 我 们 总 是 把 两 个 可 
表示 值 中 间 的 数字 向 下 合 人 ， 那么 合 人 后 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 低 一 些 。 
向 偶数 合 人 在 大 多 数 现 实情 况 中 避免 了 这 种 统计 偏差 。 在 50% 的 时 间 里 ， 它 将 向 上 合 人 ， 而 在 
50% 的 时 间 里 ， 它 将 向 下 舍 人 。 

在 我 们 不 想 合 入 到 整数 时 ， 也 可 以 使 用 向 个 数 合 人 。 我 们 只 是 简单 地 考虑 最 低 有 效 数字 是 奇 
数 还 是 偶数 。 例 如 ， 假 设 我 们 想 将 十 进 制 数 合 人 到 最 接近 的 百 分 位 。 不 管用 那 种 合 人 方式 ， 我 们 
都 将 把 1.2349999 舍 人 到 1.23， 而 将 1.2350001 舍 人 到 1.24， 因 为 它们 不 是 在 1.23 和 1.24 的 正 
中 间 。 另 一 方面 我 们 将 把 两 个 数 1.2350000 和 1.2450000 都 合 人 到 1.24， 因 为 4 是 偶数 。 

相似 地 ， 向 偶数 合 人 法 能 够 运用 于 二 进 制 小 数 。 我 们 将 最 低 有 效 位 的 值 0 认为 是 偶数 ， 值 1 
认为 是 奇数 。 一 般 来 说 ， 只 有 对 形 如 XX… 厂 YY… 了 100… 的 二 进 制 位 模式 的 数 ， 这 种 合 人 方式 才 
有 效 ， 其 中 对 和 了 表示 任意 位 值 ， 最 右边 的 了 是 要 合 人 的 位 置 。 只 有 这 种 位 模式 表示 在 两 个 可 
能 的 结果 正中 间 的 值 。 例 如 ， 考 虑 合 人 值 到 最 近 的 四 分 之 一 的 问题 (也 就 是 二 进 制 小 数 点 右边 2 
位 )。 我 们 将 10.0001l (2 这 ) 向 下 合 入 到 10.00:(2)，10.00110x 236 ) 向 上 合 人 到 10.01X 24 )， 
因为 这 些 值 不 是 两 个 可 能 值 的 正中 间 值 。 我 们 将 10.11100;(28) 向 上 舍 和 人 成 11.00,(3)， 而 
10.10100,( 28 ) 向 下 含 人 成 10.10,( 2#)， 因为 这 些 值 是 两 个 可 能 值 的 中 间 值 ， 并 且 我 们 倾向 于 使 
最 低 有 效 位 为 零 。 

三 练习 题 2.50 根据 合 入 到 偶数 规则 ， 涪 明 如 何 将 下 列 二 进 制 小 孝 什 合 入 到 最 接近 的 二 分 之 一 (二 进 抽 

小 数 点 右边 1 位 )。 对 每 种 情况 ,. 给 出 合 入 前 后 的 数字 值 。 z 

A.10.010, B.10.0ll, C.10.110, ~ D.11.001, 
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臣 对 | 练习 题 2.51 在 练习 题 2.46 中 我 们 看 到 ， 爱 国 者 导弹 软件 将 0.1 近似 表示 为 x = 0.00011001100110011001100,。 
假设 使 用 IEEE 合 入 到 偶数 方式 确定 0.1 的 二 进 制 小 数 No 23 位 的 近似 表示 x。 
A.x' 的 二 进 制 表 示 是 什么 ? 
B.x' 一 0.1 的 十 进 制 表示 的 近似 值 是 什么 ? 
C. 运行 100 小 时 后 ， 计 算 时 钟 值 会 有 多 少 偏差 ? 
D. Ne ds del 
SN 练习 题 2.52 考虑 下 列 基 于 IEEE 浮 点 格式 的 7 位 浮 点 表示 。 两 个 格式 都 没有 符号 位 一 一 它们 只 能 表 
ea 
1. 格式 A 
。 有 天 = 3 个 阶 码 位 。 阶 码 的 偏 置 值 是 3。 
， 有 n=4 个 小 数位 。 
2. 格 式 B 
。 有 k=4 个 阶 码 位 。 阶 码 的 偏 置 值 是 7。. 
。 有 n=3 个 小 数位 。 
下 面 给 出 了 一 些 格式 A 表示 的 位 模式 ， 你 的 任务 是 将 它们 转换 成 格式 B 中 最 接近 的 值 。 如 果 有 必要 ， 
请 使 用 合 入 到 偶数 的 原则 。 另 外 ， 给 出 由 格式 A 和 格式 B 表示 的 位 模式 对 应 的 数字 的 值 。 给 出 整数 
(例如 17) 或 者 小 数 〈 例 如 17/64)。 
AT 
和 | 位 | 和信 
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2.4.5 ”浮上 操 运算 

IEEE 标准 指定 了 一 个 简单 的 规则 ， 用 来 确定 诸如 加 法 和 乘法 这 样 的 算术 运算 的 结果 。 把 浮 
点 值 x* 和 yy 看 成 实数 ， 而 某 个 运算 吕 定 义 在 实数 上 ， 计 算 将 产生 Round(x © 旋 ， 这 是 对 实际 运算 
的 精确 结果 进行 含 人 后 的 结果 。 在 实际 中 ， 浮 点 单元 的 设计 者 使 用 一 些 聪明 的 小 技巧 来 避免 执行 
这 种 精确 的 计算 ， 因 为 计算 只 要 精确 到 能 够 保证 得 到 一 个 正确 的 舍 和 人 结果 就 可 以 了 。 当 参数 中 有 
一 个 是 特殊 值 (如 一 0、 一 < 或 NaN) 时 ，IEEE 标准 定义 了 一 些 使 之 更 合理 的 规则 。 例 如 ， 定 义 
1/--0 将 产生 一 ce， 而 定义 1/+0 会 产生 + co。 

IEEE 标准 中 指定 浮 点 运算 行为 方法 的 一 个 优势 在 于 ， 它 可 以 独立 于 任何 具体 的 硬件 或 者 软 
件 实现 。 因 此 ， 我 们 可 以 检查 它 的 抽象 数学 属性 ， 而 不 必 考 虑 实际 上 它 是 如 何 实现 的 。 

前 面 我 们 看 到 了 整数 〈 包 括 无 符号 和 补 码 ) 加 法 形成 了 阿 贝 尔 群 。 实 数 上 的 加 法 也 形成 了 阿 
贝尔 群 ， 但 是 我 们 必须 考虑 伟人 对 这 些 属性 的 影响 。 我 们 将 x + 尹 定 义 为 Round(xt+y)。 这 个 运算 
的 定义 针对 x 和 yy 的 所 有 取 值 ， 但 是 虽然 x 和 yy 都 是 实数 ， 由 于 溢出 ， 该 运算 可 能 得 到 无 穷 值 。 
对 于 所 有 x 和) 的 值 ， 这 个 运算 是 可 交换 的 ， 也 就 是 说 x + = y+ 如。 另 一 方面 ， 这 个 运算 是 不 
可 结合 的 。 例 如 ， 使 用 单 精度 浮 点 ， 表 达 式 (3 .14+1e10) -le10 求 值 得 到 0.0 一 一 因为 合 人 ， 
值 3.14 会 丢失 。 另 一 方面 ， 表 达 式 3.14+ (le10-1e10) 得 到 值 3.14。 作 为 阿 贝 尔 群 ， 大 多 
数值 的 浮 点 加 法 都 有 道 元 ， 也 就 是 说 x+ 人 一 rz = 0。 无 穷 (因为 + 一 = NaN) 和 NaN 是 例外 
情况 ， 因 为 对 于 任何 x， 都 有 NaV+A = NaN。 

浮 点 加 法 不 具有 结合 性 ， 这 是 缺少 的 最 重要 的 群 属 性 。 对 于 科学 计算 程序 员 和 编译 器 编写 者 
来 说 ， 这 具有 重要 的 含义 。 例 如 ， 假 设 一 个 编译 器 给 定 了 如 下 代码 片段 : 


甸 2 莫 信息 扮 疫 示 机 处理 77 


X= a 
y= b+c+d; 


编译 器 可 能 试图 产生 下 列 代码 来 省 去 一 个 浮 点 加 法 : 


t= b+c; 
X= a+t; 
y=t+d; 


然而 ， 对 于 x 来 说 ， 这 个 计算 可 能 会 产生 与 原始 值 不 同 的 值 ， 因 为 它 使 用 了 加 法 运算 的 不 同 的 
结合 方式 。 在 大 多 数 应 用 中 ， 这 种 差异 小 得 无 关 紧 要 。 不 幸 的 是 ， 编 译 器 无 法 知道 在 效率 和 忠实 
于 原始 程序 的 确切 行为 之 间 ， 使 用 者 愿意 做 出 什么 样 的 选择 。 结 果 是 ， 编 译 器 倾 问 于 保 宁 ， 避 免 
任何 对 功能 产生 影响 的 优化 ， 即 使 是 很 轻微 的 影响 。 

另 一 方面 ， 浮 点 加 法 满足 了 单调 性 属性 ; 如 果 a > 585， 那 么 对 于 任何 a、b 以 及 x 的 值 ， 除 
了 NaN, 都 有 xX+a 之 x+b。 无 符号 或 补 码 加 法 不 具有 这 个 实数 (和 整数 ) 加 法 的 属性 。 

浮 点 乘法 也 遵循 通常 乘法 所 具有 的 许多 属性 。 我 们 定义 x* y 为 Round (xXy)。 这 个 运算 在 
乘法 中 是 封闭 的 (虽然 可 能 产生 无 穷 大 或 NaN)， 它 是 可 交换 的 ， 并 且 它 的 乘法 单位 元 为 1.0。 
另 一 方面 ， 由 于 可 能 发 生 溢出 ， 或 者 由 于 舍 入 而 失去 精度 ， 它 不 具有 可 结合 性 。 例 如 ， 在 单 
精度 浮 点 情况 下 ， 表 达 式 (le20*1e20)*1le 一 20 的 值 为 + ,而 1e20* (le20*1le 一 20) 将 
得 出 le20。 男 外 ， 浮 点 乘法 在 加 法 上 不 具备 分 配 性 。 例 如 ， 在 单 精度 浮 点 情况 下 ， 表 达 式 
le20* (le20 一 le20) 的 值 为 0.0， 而 le20*1e20 一 ]e20*]e20 会 得 出 NaN.。 

另 一 方面 ， 对 于 任何 a、b 和 c， 并 且 a、b 和 < 都 不 等 于 NaN， 浮 点 乘法 满足 下 列 单调 性 : 
a 宇 b 有 是 c 二 0 一 a*fc> pb*fe 
a>bHe<0—>a+*+‘c<b*ic 

此 外 ， 我 们 还 可 以 保证 ， 只 要 a 冯 NaN， 囊 有 ay 420。 像 我 们 先前 所 看 到 的 ， 无 符号 或 
补 码 的 乘法 没有 这 些 单调 性 属 性 。 : 

对 于 科学 计算 程序 员 和 编译 器 编写 者 来 说 ， 缺 乏 结合 性 和 分 配 性 是 很 严重 的 问题 。 即 使 为 

了 在 三 维 空间 中 确定 两 条 线 是 否 交叉 而 写 代码 这 样 看 上 去 很 简单 的 任务 ， 也 可 能 成 为 一 个 很 大 
的 挑战 。 
2.4.6 C 语言 中 的 浮 点 数 

所 有 的 C 语言 版 本 提供 了 两 种 不 同 的 浮 点 数据 类 型 ， float 和 double。 在 支持 IEEE ; 肖 后 
格式 的 机 器 上 ， 这 些 数据 类 型 就 对 应 尽 于 单 精 度 和 双 精 度 浮 点 。 另 外 ， 这 类 机 器 使 用 扎 向 偶数 合 人 的 
方式 。 不幸 的 是 ， 因 为 C 语言 标准 不 要 求 机 器 使 用 IEEE 浮 点 ， 所 以 没有 标准 的 方法 来 改变 含 人 
方式 或 者 得 到 诸如 -0、+ co、- se 或 者 NaN 之 类 的 特殊 值 。 大 多 数 系统 提供 include( ‘.h’ ) 
文件 和 读 取 这 些 特征 的 过 程 库 ， 但 是 细节 因为 系统 不 同 而 不 同 。 例 如 ， 当 程序 六 文件 中 出 现下 列 名 
子 时 ，GNU 编译 器 GCC 会 定义 程序 常数 INFINITY (表示 + c ) 和 NAN (表示 NaN)。 


# define _GNU_ SOURCE 1 
# include <math.h> 


较 新 版 本 的 C 语言 ， 包 括 ISO C99， 包 含 第 三 种 浮 点 数据 类 型 long douible。 对 于 许多 机 
器 和 编译 器 来 说 ， 这 种 数据 类 型 等 价 于 double 数据 类 型 。 不 过 对 于 Intel 兼容 机 来 说 ，GCC 用 
80 位 “扩展 精度 ” 格式 来 实现 这 种 数据 类 型 ， 提供 了 比 标准 64 DR 的 取 值 范围 和 精 
2 dn 2.85 研究 了 这 种 格式 的 属性 。 
Py 练习 题 2.53 完成 下 列 宏 定 义 ， 生成 双 精 度 什 + co、 一 cc 和 0。 


#define POS INFINITY 
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#define NEG INFINITY 
#define NEG ZERO 


不 能 使 用 任何 include 文件 (例如 math.h)， 但 你 能 利用 的 是 : 双 精 度 能 够 表示 的 最 大 的 有 限 数 ， 
大 约 是 1.8X10™。 
当 在 int、float 和 double 格式 之 间 进 行 强制 类 型 转换 时 ， 程序 改变 数值 和 位 模式 的 原 
则 如 下 假设 int 是 32 位 的 ): 
. 从 int 转换 成 loat， 数 字 不 会 溢出 ， 但 是 可 能 被 舍 人 。 
“从 :int 或 float 转换 成 double， 因 为 double 有 更 大 的 范围 (也 就 是 可 表示 值 的 范围 )， 
也 有 更 高 的 精度 (也 就 是 有 效 位 数 )， 所 以 能 够 保留 精确 的 数值 。 
“从 double 转换 成 hoat， 因 为 范围 要 小 一 些 ， 所 以 值 可 能 溢出 成 为 + 或- 另外 ， 
由 于 精确 度 较 小 ， 它 还 可 能 被 合 人 。 : 
“从 float 或 者 daouble 转 换 成 int， 值 将 会 向 零售 人 。 例 如 ，1.999 将 被 转换 成 1， 
而 一 1.999 将 被 转换 成 -1。 进 一 步 来 说 ， 值 可 能 会 溢出 。C 语言 标准 没有 对 这 种 情况 指 
. 定 固定 的 结果 。 与 Intel 兼容 的 微 处 理 器 指定 位 模式 [10...00]( 字 长 为 w 时 的 TMin,) 为 
整数 不 确定 (integer indefinite) 值 。 一 个 从 浮 点 数 到 整数 的 转换 ， 如 果 不 能 为 该 浮 点 数 
找到 一 个 合理 的 整数 近似 值 ， 就 会 产生 这 样 一 个 值 。 因此 ， 表 达 式 (int)+lel0 会 得 
到 一 21483648， 即 从 一 个 正 值 变 成 了 一 个 负 值 。 


网 络 旁 注 DATA ， IA32-FP ; Intel IA32 的 浮 点 运算 

在 下 一 章 ， 我 们 将 深入 研究 Intel IA32 处 理 器 ,这 种 处 理 器 大 量 地 应 用 于 今天 的 个 人 计算 机 
ts 这 里 ， 我 们 重点 突出 这 种 机 器 的 一 个 特性 ， 即 用 GCC 编译 的 时 候 ， 它 能 够 严重 影响 程序 对 
浮 点 数 运算 的 行为 。 

,， 像 大 多 数 其 他 处 理 器 一 样 ，IA32 处 理 器 有 特别 的 存储 器 元 素 ， 称 为 寄存 器 ， 当 计算 或 者 使 
用 浮 点数 时 ， 用 来 保存 浮 点 值 。IA32 非 同 一 般 的 属性 是 ， 浮 点 ee 80 位 的 扩 
展 精 度 格 式 。 与 存储 器 中 保存 值 所 使 用 的 普通 32 位 单 精度 和 64 位 双 精 度 格 式 相 比 ， 它 提供 了 更 
大 的 表示 范围 和 更 高 的 精度 。( 参 见 家 庭 作 业 2.85。) 所 有 的 单 精度 和 双 精度 数 在 从 存储 器 加 载 到 
浮 点 寄存 器 中 时 ， 都 会 转换 成 这 种 格式 。 运 算 总 是 以 扩展 精度 格式 进行 的 。 当 数字 存储 在 存储 器 
中 时 ， 它 们 就 从 扩展 精度 转换 成 单 精度 或 者 双 精 度 格 式 。 

对 于 程序 员 而 言 ， 把 所 有 寄存 器 数据 扩展 成 80 位 ， 并 把 所 有 存储 器 数据 收 纺 成 更 小 的 格式 
的 做 法 ， 会 会 产生 一 些 不 太 好 的 当 果 。 这 总 味 着 从 寄存 器 存储 一 个 值 到 存储 器 中 ， 然 后 再 把 它 取 回 
到 寄存 器 中 ， 由 于 舍 入 、 下 溢 或 者 上 溢 ， 可 能 会 改变 它 的 值 。 对 于 C 语言 程序 员 来 说 ， 这 种 存 
入 和 取出 并 不 总 是 可 见 的 ， 因 而 会 时 致 一 些 非常 异常 的 结果 。 

较 新 版 本 的 Intol 处 理 器 ， 包 括 IA32 和 较 新 的 64 位 机 器 ， 对 单 精度 和 到 精 度 小 点 运算 提 
供 了 直接 的 硬件 支持 。 随 着 新 硬件 以 及 基于 较 新 的 浮 点 指 全 令 产生 代码 的 新 编译 器 的 使 用 ， 以 前 
IA32 做 法 导致 的 这 些 奇 怪 特性 会 逐渐 消失 。 


Ariane 5 一 一 浮 操 洲 出 的 高 昂 代 价 
.将 大 的 浮 点 数 转换 成 整数 是 一 种 常见 的 程序 错误 来 源 。1996 年 6 月 4 日 ，Ariane 5 火箭 初次 
航行 ， 一 个 错误 便 产 生 了 灾难 性 的 后 果 。 发 射 后 仅仅 37 秒 ， 火 箭 偏 离 了 它 的 飞行 路 径 ， 解 体 并 
且 爆 炸 。 火 箭 上 载 有 价值 S 亿美 元 的 通信 卫星 。 
后 水 的 调查 [69，39] 显示 ， 控 制 惯 性 导航 系 统 的 计算 机 向 控制 | 学 喷嘴 的 计算 机 发 送 了 一 
个 无 效 数据 。 它 没有 发 送 飞 行 控制 信息 ， 而 是 送出 了 一 个 诊断 位 模式 ， 表 明 将 一 个 64 位 浮 点 数 
转换 成 16 位 有 符号 整数 时 ， 产生 了 溢出 。 
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溢出 的 值 测 量 的 是 火箭 的 水 平 速 府 ， 这 比 早 先 的 Ariane 4 火箭 所 能 达到 的 速度 高 出 了 5 倍 。 
设计 Ariane 4 火箭 软件 的 时 候 ， 他 们 小 心地 分 析 了 这 些 数 字 值 ， 并 且 确 定 水 平 速率 决 不 会 超出 一 
个 16 位 数 的 表示 范围 。 不 幸 的 是 ， 他 们 在 Ariane 5 火箭 的 系统 中 简单 地 重用 了 这 一 部 分 ， 而 没 
有 检查 它 所 基于 的 假设 。 





ES 习 练习 题 2.54 ”假定 变量 x、f 和 dd 的 类 型 分 别 是 int、float 和 double。 除 了 工 和 qd 都 不 能 等 于 
+ co、 一 co 或 者 NaV 之 外 它们 的 值 是 任意 的 。 下 面 每 个 C 表达 式 ， 证 明 它 总 是 为 真 《 也 就 是 求 值 为 
1), .或 者 给 出 一 个 使 表达 式 不 为 真 的 值 (也 就 是 求 值 为 0)。 

A. x== (int) (double)x 
B. x== (int) (float)x 

= (Qouble) (float)d 
D. f== (float) (double)f 
E. £==- (-£) 
F.1.0/2==1/2.0 
G. d*d>=0.0 
H. (f+d) -f== 





2.5 “小结 


计算 机 将 信息 按 位 编码 ， 通 常 组织 成 字 节 序列 。 用 不 同 的 编码 方式 表示 整数 、 实数 和 字符 
串 。 不 同 的 计算 机 模型 在 编码 数字 和 多 字 节 数据 中 的 字 节 排序 时 使 用 不 同 的 约定 。 

C 语言 的 设计 可 以 包容 多 种 不 同 字 长 和 数字 编码 的 实现 。 虽然 高 端 机 器 逐渐 开始 使 用 64 位 
字 长 ， 但 是 目前 大 多 数 机 器 仍 使 用 32 位 字 长 。 大 多 数 机 器 对 整数 使 用 补 码 编码 ， 而 对 浮 点 数 使 
用 IEEE 浮 点 编码 。 在 位 级 上 理解 这 些 编码 ， 并 且 理 解 算 术 运 算 的 数学 特性 对 于 想 使 编写 的 程 
序 能 在 全 部 数值 范围 上 正确 运算 的 程序 员 来 说 ， 是 很 重要 的 。 

在 相同 长 度 的 无 符号 和 有 符号 整数 之 间 进 行 强制 类 型 转换 时 ， 大 多 数 C 语 言 实现 遵循 的 原 
则 是 底层 的 位 模式 不 变 。 在 补 码 机 器 上 ， 对 于 一 个 w 位 的 值 ， 这 种 行为 是 由 函数 72U, 和 U2T, 


80 菜 一 刘 分 程序 绕 殉 和 搞 疗 


来 描述 的 。C 语言 隐 式 的 强制 类 型 转换 会 出 现 许多 程序 员 无 法 预计 的 结果 ， 常 常 导致 程序 错误 。 

由 于 编码 的 长 度 有 限 ， 与 传统 整数 和 实数 运算 相 比 ， 计 算 机 运算 具有 完全 不 同 的 属性 。 当 超 
出 表示 范围 时 ， 有 限 长 度 能 够 引起 数值 溢出 。 当 浮 点 数 非常 接近 于 0.0， 从 而 转换 成 零 时 也 会 
下 洲 。 

和 大 多 数 其 他 程序 语言 一 样 ，C 语言 实现 的 有 限 整数 运算 和 真实 的 台数 运算 相 比 ， 有 一 些 特 
殊 的 属性 。 例 如 ， 由 于 洲 出 ， 表 达 式 x*x 能 够 得 出 负数 。 但 是 ， 无 符号 数 和 补 码 的 运算 都 满足 
整数 运算 的 许多 其 他 属性 ， 包 括 结合 律 、 交 换 律 和 分 配 律 。 这 就 允许 编译 器 做 很 多 的 优化 。 例 
如 ， 用 (x<<3) -x 取代 表达 式 7*x 时 ， 我 们 就 利用 了 结合 律 、 交 换 律 和 分 配 律 的 属性 ， 还 利用 


了 移 位 和 乘 以 2 的 适 之 间 的 关系 。 
ee 使 用 补 码 运算 ， 
~x+1 等 价 于 一 x 。 另 外 一 个 例子 ， 假 设 我 们 想 要 一 个 形 如 …,1] 的 位 模式 ， 由 w- 


Kk 个 0 后 面 紧 跟着 x 个 1 组成。 这些 位 模式 有 助 于 掩 码 运算 。 ee de 
(1<<k) 一 1 生成 ， 利 用 的 是 这 样 一 个 属性 ， 即 我 们 想 要 的 位 模式 的 数值 为 2 一 1。 例 如 ， 表 达 式 
(1<<8) 一 1 将 产生 位 模式 0xFF。 | 

浮 点 表示 通过 将 数字 编码 为 xX2 的 形式 来 近似 地 表示 实数 。 最 常见 的 浮 点 表示 方式 是 由 

IEEE 标准 754 定义 的 。 它 提供 了 几 种 不 同 的 精度 ， 最 常见 的 是 单 精度 (32 位 ， 和 双 精 度 (64 

位 )。IEEE 浮 点 也 能 够 表示 特殊 值 + 2、 一 和 NaN。 
必须 非常 小 心地 使 用 浮 瓜 运 算 ， 因为 浮 点 运算 只 有 有 限 的 范围 和 精度 ， 而 且 不 遵守 普遍 的 算 
术 属 性 ， 比 如 结合 性 。 


参考 文献 说 明 


关于 C 语言 言 的 参考 书 [48，58] 讨论 了 不 同 的 数据 类 型 和 运算 的 属性 。( 这 两 本 书 中 ， 只 有 
Steele 和 Harbison 的 书 [48] 涵盖 了 ISO C99 的 新 特性 .) 对 于 精确 的 字 长 或 者 数字 编码 C 语言 
标准 没有 详细 的 定义 。 这 些 细节 是 故意 省 去 的 ， 这 样 可 以 在 更 大 范围 的 不 同 机 器 上 实现 C 语言 。 
已 经 有 几 本 书 [59，70] 给 了 C 语言 程序 员 一 些 建 议 ， 警 告 他 们 关于 溢出 、 隐 式 强 制 类 型 转换 到 
无 符号 数 ， 以 及 其 他 一 些 已 经 在 这 一 章 中 谈 及 的 陷阱 。 这 些 书 还 提供 了 对 变量 命名 、 编码 风格 和 

代码 测试 的 有 益 建 议 。Seacord 的 书 [94] 是 关于 C 和 C++ 程序 中 的 安全 问题 的 ， 本 书 结合 了 C 
程序 的 有 关 信息 ， 如 何 编译 和 执行 程序 ， 以 及 漏洞 是 如 何 造 成 的 。 关 于 Java 的 书 〈 我 们 推荐 
Java 语言 言 的 创始 人 1 James Gosling 参与 编写 的 一 本 书 [4] ) 撒 述 了 Java 支持 的 数据 格式 和 算术 
运算 。 

关于 逻辑 设计 的 书 [56，115] 都 有 关于 编码 和 算术 运算 的 章节 ， 描述 了 实现 算术 电路 的 不 同方 
式 。Overton 的 关于 IEEE 浮 点 数 的 书 [78]， 从 数字 应 用 程序 员 的 角度 ， 详细 描述 了 格式 和 属性 。 


家 庭 作业 


*2.55 在 你 能 够 访问 的 不 同 机 器 上 ， 使 用 show _bytes 《文件 show-bytes， 全 编译 并 运 示例 代码 ， z 
确定 这 些 机 器 使 用 的 字 节 ) 顺序 。 
* 2.56 ” 试 着 用 不 同 的 示例 值 来 运行 show _bytes 的 代码 。 
*2.57 编写 程 序 show_shott、 show long 和 show double， 它 们 分 别 打 印 类 型 为 short int、 
long int 和 double 的 C 语 言 对 象 的 字 节 表示 。 请 试 着 在 儿 种 机 器 上 运行 。 
**2.58 编写 过 程 Ts_1Litt1le_endian， 当 在 小 \ 端 法 机 器 上 编译 和 运行 行 时 返回 1， 在 大 六 法 机 兴 上 名 
”时 则 返回 0。 这 个 程序 应 该 可 以 运行 了 在 任何 机 器 上 ， 无 论 机 器 的 字 长 是 多 少 。 
**2.59 ”编写 一 个 C 表 达 式 ， 使 它 生成 一 个 字 ， 由 x 的 最 低 有 效 字 节 和 vy 中 剩 下 的 字 节 组 成 。 对 于 运算 数 


** 2.60 


** 2.61 


+ 2.62 
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x=0x89ABCDEF 和 y=0x76543210， 就 得 到 0x765432EF。 
假设 我 们 将 一 个 w 位 的 字 中 的 字 节 从 0( 最 低位 到 w/8 一 1( 最 高 位 ) 编号 。 写 出 下 面 C 函数 的 代码 ， 
它 会 返回 一 个 无 符号 值 ， 其 中 参数 x 的 字 节 i 被 蔡 换 成 字 节 上 b : 


unsigned put byte (unsigned XxX, unsigned char b int i); 


以 下 的 一 些 示 例 ， 说 明了 这 个 函数 该 如 何 工作 : 


replace_byte(Ox12345678,0xAB, 2) --> 0x12AB5678 
replace._byte(Ox12345678,，0xAB, 0) --> 0x123456AB 


位 级 整数 编码 规则 

在 接 下 来 的 作业 中 ， 我 们 特意 限制 了 你 能 使 用 的 编程 结构 ， 来 帮 你 更 好 地 理解 C 语言 的 位 级 、 逻辑 
和 算术 运算 。 在 回答 这 些 问题 时 ， 你 的 代码 必须 遵守 下 面 这 些 规则 : 

。 假 设 

四 整数 用 补 码 形式 表示 。 

加 有 符号 数 的 右 移 是 算术 右 移 。 


四 数据 类 型 int 是 w 位 长 的 。 对 于 某 些 题 目 ， 会 给 定 w 的 值 ， 但 是 在 其 他 情况 下 ， 只 要 w 是 8 的 


整数 个， 你 的 代码 就 应 该 能 工作 。 你 可 以 用 表达 式 sizeof (int)<<3 来 计算 w。 
。 禁 止 使 用 
国 条 件 语句 〈if 或 者 ?:)、 循 环 、 分 支 语句 、 函 数 调 用 和 和 宏 调用 。 
四 除法 、 模 运算 和 乘法 。 
中 相对 比较 运算 符 (<、>、<= 和 >=)。 
四 强制 类 型 转换 ， 无 论 是 显 式 的 还 是 隐 式 的 。 
。 人 允许 的 运算 
曙 所 有 的 位 级 和 逻辑 运算 。 
加 左 移 和 右 移 ， 人 1 之 间 。 
昌 加 法 和 减法 。 
a 相等 《一 ) 和 不 相等 (!=) 测试 。( 在 有 些 题目 中 ， 也 不 多 许 这 些 运算 。) 
到 整 型 常数 INT _ MIN 和 INT MAX。 
即使 有 这 些 条 件 的 限制 ， 你 仍然 可 以 选择 描述 性 的 变量 名 ， 并 且 使 用 注释 来 描述 你 的 解决 方案 的 加 


辑 ， 尽 量 提高 代码 的 可 读 性 。 例 如 ， 下 面 这 段 代码 从 整数 参数 x 中 抽取 出 最 高 有 效 字 节 : 


/* Get most significant byte from x */ 
int get_msb(int x) { 
/* Shift by w-8 */ 
int shift_val = (sizeof (int)-1)<<3; 
/* Arithmetic: shift */. . : 
int xright = x >> shift_val; | 
/* Zero all but LSB */ 
return xright & OxFF; 
} SE 


写 一 个 C 表 达 式 ， 在 下 列 描述 的 条 件 下 产生 1， 而 在 其 他 情况 下 得到 0。 假设 是 int 类 型 

A. x 的 任何 位 都 等 于 1。 

B. x 的 任何 位 都 等 于 0。 

C. x 的 最 高 有 效 字 节 中 的 位 都 等 于 1。 

D.x 的 最 低 有 效 字 节 中 的 位 都 等 于 0。 

代码 应 该 遵循 位 级 整数 编码 规则 ， 另 外 还 有 一 个 限制 ， 你 不 能 使 用 相等 (二) 和 不 相等 〈I=) 测试 。 
编写 一 个 函数 int_shifts _ are logical()， 在 对 int 类 型 的 数 使 用 算术 右 移 的 机 器 上 运行 时 ， 
这 个 函数 生成 1， 而 其 他 情况 下 生成 0。 你 的 代码 应 该 可 以 运行 在 任何 字 长 的 机 器 上 。 在 儿 种 机 器 上 
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测试 你 的 代码 。 z 
党 2.63 将 下 面 的 C 函数 代码 补充 完整 。 函 数 srl 用 算术 右 移 〈 由 值 xsra 给 出 ) 来 完成 逻辑 右 移 ， 后 面 的 

其 他 操作 不 包括 石 移 或 者 除法 。 函 数 sra 用 逻辑 右 移 〈 由 值 xsrl 给 出 ) 来 完成 算术 右 移 ， 后 面 的 
其 他 操作 不 包括 右 移 或 者 除法 。 可 以 通过 计算 8*sizeof (int) 来 确定 数据 类 型 int 中 的 位 数 w。 
位 移 量 k 的 取 值 范围 为 0 一 w 一 1。 
int Sra(int x, int k) { 

/* Perform shift logically */ 

int xsrl = (unsigned) x >> k; 


} 
unsigned srl(unsigned x, int k) { 
/* Perform shift arithmetically */ 
unsigned xsra = (int) x >> k; 


} 
*2.64 ” 写 出 代码 实现 如 下 函数 : 


/* Return 1 when any even bit of x equals 1; 0 otherwise. 
Assume w=32 */ 
int any_even_one(unsigned Xx); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w=32 位 。 
##2.65 ” 写 出 代码 实现 如 下 函数 : 
/kx Return 1 when x contains an even number of 1s; 0 otherwise ， 
Assume w=32 */ 
int even._ones(unsigned x); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 nt 有 w=32 位 。 
你 的 代码 最 多 只 能 包含 12 个 算术 运算 、 位 运算 和 刘 辑 运算 。 
六 2.66 写 出 代码 实现 如 下 函数 : 
2 
* Generate mask indicating' leftmost 1 in x. Assume w=32. 
* For example OxFFOO -> Ox8000, and Ox6600 --> Ox4000. 
+ If x = 0, then return 0. 
*/ 
int leftmost._one(unsigned X) ; Se 
函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w=32 位 。 
你 的 代码 最 多 只 能 包含 15 个 算术 运算 、 位 运算 和 认 辑 运算 。 
提示 : 先 将 x 转换 成 形 如 [0...011…1] 的 位 向 量 。 二 
**2.67 给 你 一 个 任务 ， 编 写 一 个 过 程 jnt_size_is_32()， 当 在 一 个 int 是 32 位 的 机 器 上 运行 时 ， 该 程 
序 产 生 1, 而 其 他 情况 则 产生 0。 不 多 许 使 用 sizeof 运算 符 。 下 面 是 开始 时 的 尝试 : 
/* The following code does not run properly on some machines */ 
int bad_int_size_is_32() + 
/* Set most significant bit (msb) of 32~bit machine */ 
int set_msb = 1 << 31; 1 


1 
2 
3 
4 
/* Shift past msb of 32~bit word */ 
6 int beyond_msb = 1 “< 32; 

7 

8 

9 


/* set_msb is nonzero when word size >= 32 . 
beyond_msb is zero when word size <= 32 ‘*/ 


**2.68 


** 2.69 


** 2.70 
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10 return set_msb && !beyond_msb,; 


11 } 


当 在 SUN SPARC 这 样 的 32 位 机 器 上 编译 并 运行 时 ， 这 个 过 程 返 回 的 却 是 0。 下 面 的 编译 器 信息 
了 我 们 一 个 问题 的 指示 : 

warning: left shift count >= width of type 

A. 我 们 的 代码 在 哪个 方面 没有 遵守 C 语言 标准 ? 

B. 修改 代码 ， 使 得 它 在 int 至 少 为 32 位 的 任何 机 器 上 都 能 正确 地 运行， 

C. 修 改 代 码 ， 使 得 它 在 int 至 少 为 16 位 的 任何 机 器 上 都 能 正确 地 运行 。 

写 出 具有 如 下 原型 的 函数 的 代码 : 


/* 

* Clear all but least signficant n bits of x 

* Examples: x = Ox78ABCDEF, n = 8 --> OxEF, n = a OxCDEF ， 
* Assume 1 <= nN <= WW 

Ey 


int lower_bits(int x, int 工 ) ， 


函数 应 该 遵循 位 级 整数 编码 规则 。 要 注意 n=w 的 情况 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 


/* 

* Do rotating right shift. Assume 0 <= NH<y 
* Examples when X = Ox12345678 and Ww = 32: 

站 n=4 -> Ox81234567 ,n=20 -> Ox45678123 

*/ 


unsigned rotate EDN Napsepoy X， int n); 


函数 应 该 六 遵循 位 级 整数 编码 规则 。 要 注意 n= 0 的 情况 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 
/* 
* Return 1 when x can be represented as an n~bit, 2's complement 
+ number; 0 otherwise 
* AsSUme 1 <= BN 《= WwW 
*/ 


int fits _bits(int yh n); 


函数 应 该 遵循 位 级 整数 编码 规则 。 
你 刚刚 开始 在 一 家 公司 工作 ， 他 们 要 实现 一 组 过 程 来 操作 一 个 数据 结构 ， 要 将 4 个 有 符号 字 节 封装 
成 一 个 32 位 unsigned。 一 个 字 中 的 字 节 从 0〈 最 低 有 效 字 节 ) 编号 到 3〔 最 高 有 效 字 节 )。 分 配给 
你 的 任务 是 : 为 一 个 使 用 补 码 运算 和 算术 右 移 的 机 器 编写 一 个 具有 如 下 原型 的 函数 : 


/* Declaration of data type Where 4 bytes are packed 
into an unsigned */ 
typedef unsigned packed t; 


/* Extract byte from Word. Return as signed integer */ 
int xbyte(packed._t word, int bytenumy) ; 


， 也 就 是 说 ， 函 数 会 抽取 出 指定 的 字 节 ， 再 把 它 符号 扩展 为 一 个 32 位 int。 


你 的 前 任 〈 因 为 水 平 不 够 高 而 被 解雇 了 ) 编写 了 下 面 的 代码 : 
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/* Failed attempt at xbyte */ 
int xbyte(packed_t word, int bytenum) 
{ 
return (word >> (bytenum << 3)) & OxFF; 
} 


A. 这 段 代 码 错 在 哪里 ? 
B. 给 出 函数 的 正确 实现 ， 只 能 使 用 左右 移 位 和 一 个 减法 。 

给 你 一 个 任务 ， 写 一 个 函数 ， 将 整数 val 复制 到 缓冲 区 buf 中 ， 但 是 只 有 当 缓 冲 区 中 有 足够 可 用 的 
空间 时 ， 才 执行 复制 。 
你 写 的 代码 如 下 : 
/* Copy integer into bufier if space is available */ 
/* WARNING: The following code is buggy */ 
void copy_int(int val, void *buf, int maxbytes) { 

if (maxbytes-sizeof (val) >= 0) 


memcpy (buf, (void *) &val, sizeof(val)); 
J 


这 段 代 码 使 用 了 库 函 数 memcpy。 虽 然 在 这 里 用 这 个 函数 有 点 刻意 ， 因为 我 们 只 是 想 复制 一 个 int， 
但 是 它 说 明了 一 种 复制 较 大 数据 结构 的 常见 方法 。 

你 仔细 地 测试 了 这 段 代码 后 发 现 ， 哪 怕 maxbytes 很 小 的 时 候 ， 它 也 能 把 值 复制 到 缓冲 区 中 。 

A. 解释 为 什么 代码 中 的 条 件 测试 总 是 成 功 。 提 示 : sizeof 运算 符 返 回 类 型 为 size _t 的 值 。 

B. 你 该 如 何 重 写 这 个 条 件 测试 ， 使 之 工作 正确 。 

写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Addition that saturates to TMin or TMax */ 
int saturating_add(int x, int y); 


同 正常 的 补 码 加 法 溢出 的 方式 不 同 ， 当 正 溢出 时 ，saturating_ a TMax， 负 溢出 时 ， 返 回 
TMin。 这 种 运算 常常 用 在 执行 数字 信和 号 处 理 的 程序 中 。 

你 的 函数 应 该 遵循 位 级 整数 编码 规则 。 

写 出 具有 如 下 原型 的 函数 的 代码 : 

/* Determine whether subtracting arguments Will cause overflow */ 

int tsub_ovf(int x, int y); 

如 果 计算 x--Y 导致 游 出 ， 这 个 函数 就 返回 1。 

假设 我 们 想 要 计算 x.y 的 完整 的 2w 位 表示 ， 其 中 ,x 和 yy 都 是 无 符号 数 ， 并 且 运 行 在 数据 类 型 
unsigned 是 w 位 的 机 器 上 。 乘 积 的 低 w 位 能 够 用 表达 式 x*y 计算 ， 所 以 ， 我 们 只 需要 一 个 具有 下 
列 原型 的 函数 : 


int signed high prodl(int x, int y); 


这 个 函数 计算 无 符号 变量 x 的 高 Ww 位 。 
我 们 使 用 一 个 具有 下 面 原型 的 库 函 数 : 


unsigned unsigned high prod(unsigned x, unsigned y); 


它 计 算 在 x 和] 采用 补 码 形式 的 情况 下 ， 人 编写 代码 调用 这 个 过 程 ， 以 实现 用 无 符号 
数 为 参数 的 函数 。 验 证 你 的 解答 的 正确 性 。 

提示 : 看 看 等 式 (2-18) 的 推导 中 ， 有 符号 于 积 x.y 和 无 符号 乘积 .之 问 的 关系 。 

假设 我 们 有 一 个 任务 : 生成 一 段 代 码 ， 将 整数 变量 x 乘 以 不 同 的 常数 因子 及。 为 了 提高 效率 ， 我 们 
想 只 使 用 +、-- 和 << 运算 。 对 于 下 列 天 的 值 ， 写 出 执行 乘法 运算 的 C 表达 式 ， 每 个 表达 式 中 最 多 使 
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用 3 个 运算 。 

A.K=5: 

B., K= 9. 

C.K=30. 

D.K=—56: 

写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Divide by power of two. fssume 0 <= k < w-1 */ 
int divide_power2(int x, int K) ; 


该 函数 要 用 正确 的 舍 入 方式 计算 x/24， 并 且 应 该 遵循 位 级 整数 编码 规则 。 

写 出 函数 mul5div8 的 代码 ， 对 于 整数 参数 x， 计 算 5*x/8， 和 你 的 
代码 计算 5*x 也 会 产生 溢出 。 

写 出 函数 fiveeighths 的 代码 ， 对 于 整数 参数 x， 计 算 5/8x 的 值 ， 向 零 舍 入 。 它 不 会 液 出 。 函 数 
应 该 遵循 位 级 整数 编码 规则 。 

编写 C 表达 式 产生 如 下 位 模式 ， 其 中 a ,表示 符号 a 重复 次 。 假设 一 个 w 位 的 数据 类 型 。 你 的 代码 
可 以 包含 对 参数 加 和 nn 人 的 值 ， 但 是 不 能 使 用 表示 w 的 参数 。 

A.1 0。 

B. 0 "1"0", 

我 们 在 一 个 int 类 型 值 为 32 位 的 机 器 上 运行 程序 。 这 些 值 以 补 码 形式 表示 ， 而 且 它 们 都 是 算术 右 
移 的 。unsigned 类 型 的 值 也 是 32 位 的 。 

我 们 产生 随机 数 x 和 Y， 并 且 把 它们 转换 成 无 符号 数 ， 显 示 如 下 : 


/* Create some arbitrary Values */ 
int x = random() ; 

int y = random() ; 

/* Convert to unsigned */ 

unsigned ux = (unsigned) x; 
unsigned uy = (unsigned) Jy; 


对 于 下 列 每 个 C 表达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 那么 请 描述 其 中 的 数学 
原理 。 和 否则， 列举 一 个 使 它 为 0 的 参数 示例 。 

A. (x>y) == (-X<-y) 

. ((x+y)<<5) + X-y == 31*y+33*x 

。~X+~y == ~(x+y) 

. (int) (ux~-uy) == ~-(y-x) 

. ((x>>1) <<1) <=x 


AR 


一 些 数 字 的 二 进 制 表示 是 由 形 如 0.y yyyyy… 的 无 穷 串 组 成 的 ， 其 中 yy 是 一 个 上 位 的 序列 。 例 如 ，3 

的 二 进 制 表示 是 0.01010101…(y= 01)， 而 3 的 二 进 制 表示 是 0.001100110011…(y= 0011)。 

A. 设 了 = B2Ui(y)， 也 就 是 说 ， 这 个 数 具 有 二 进 制 表示 )。 给 出 一 个 由 了 和 天 组 成 的 公式 表示 这 个 无 
穷 串 的 值 。 提 示 : 请 考虑 将 二 进 制 小 数 点 右 移 位 的 结果 。 

B. 对 于 下 列 y 的 值 ， 串 的 数值 是 多 少 ? 

(a) 001 

(b) 1001 

(c) 000111 


鞭 写 下 列 程 序 的 返回 值 ， 这 个 程序 是 测试 它 的 第 一 个 参数 是 否 大 于 或 者 等 于 第 二 个 参数 。 假 定 函 数 
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f2u 返回 一 个 无 符号 32 位 数字 ， 其 位 表示 与 它 的 浮 点 参数 相同 。 你 可 以 假设 两 个 参数 都 不 是 NaN。 
两 种 0，+0 和 一 0 被 认为 是 相等 的 。 
int float_ge(float x, float y) { 

unsigned ux = f2u(x); 

unsigned uy = f2u(y) ; 

/* Get the sign bits */ 

unsigned sx = ux >> 31; 

unsigned sy = uy >> 31; 


/* Give an expression using only ux, Uy, SxXx, and sy +*/ 
return ; , : | - 


} 

* 2.84 ”给 定 一 个 学 点 格式 ， 有 上 位 指数 和 nn 位 小 数 ， 对 于 下 列 数 ， 写 出 阶 码 、 尾 数 M、 小 数 / 和 值 的 
公式 。 另 外 ， 请 描述 其 位 表示 。 
A. 数 5.0。 
B. 能 够 被 准确 描述 的 最 大 奇 整数 。  :， 
C. 最 小 的 规格 化 数 的 倒数 。 四 

* 2.85 与 Intel 兼容 的 处 理 器 也 支持 “扩展 精度 ” 浮 点 形式 ， 这 种 格式 具有 80 位 字 长 ， 被 分 成 1 个 符号 位 、 
上 = 15 个 阶 码 位 、1 个 单独 的 整数 位 和 n= 63 个 小 数位 。 整 数位 是 IEEE 浮 点 表示 中 隐 含 位 的 显 式 副 
本 。 也 就 是 说 ， 对 于 规格 化 的 值 它 等 于 1， 对 于 非 规 格 化 的 什 它 等 于 0。 填写 下 表 ， 给 出 用 这 种 格式 
表示 的 一 些 “有趣 的 ”数字 的 近似 值 。 : 


述 
最 小 的 正 非 规格 化 数 Le 
< 


最 小 的 正规 格 化 数 
最 大 的 规格 化 数 


*2.86 考虑 一 个 基于 IEEE 浮 点 格式 的 16 位 浮 点 表示 ， 它 具有 1 个 符号 位 、7 个 阶 码 位 (k=7) 和 8 个 小 
数位 (n= 8)。 阶 码 偏 置 量 是 2 ”一 1 = 63。 : 
对 于 每 个 给 定 的 数 ， 填 写 下 表 ， 其 中 ， 每 一 列 具 有 如 下 指示 说 明 : 
Hex : 描述 编码 形式 的 4 个 十 六 进 制 数字 。 
M: 尾数 的 值 。 这 应 该 是 一 个 形 如 x 或 5 的 数 ， 其 中 x 是 一 个 整数 ， 而 y 是 2 的 整数 竺 。 例 如 : 0、 贸 和 记 。 
巨 : 阶 码 的 整数 值 。 | : 
:所 表示 的 数字 值 。 使 用 x 或 者 x X 2 表示， 其 中 x 和 z 都 是 整数 。 
举 一 个 例子 ， 为 了 表示 数 3， 我 们 有 s=0，M= 了 和 EE=1。 因 此 这 个 数 的 阶 码 字段 为 0x40〔 十 进 制 
值 63+1=64)， 尾 数字 段 为 0xC0O (二 进 制 11000000,)， 得 到 一 个 十 六 进 制 的 表示 40C0。 
标记 为 “一 ”的 条 目 不 用 填写 。 - 
。  _ 撒 述 | Hx | MM | 卫 
EE 
最 小 的 值 
256 


: 描 
256 
最 大 的 非 规格 化 数 
十 六 进 制 表示 为 3ARA0 的 数 


**#2.87 考虑 下 面 两 个 基于 IEEE 浮 点 格式 的 9 位 浮 点 表示 。 


+ 


| 扩展 精度 
十 进 制 
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1. 格式 A 

田 有 一 个 符号 位 。 

虽 有 k=5 个 阶 码 位 。 阶 码 偏 置 量 是 15。 

加 有 n=3 个 小 数位 。 

2. 格式 也 

时 有 一 个 符号 位 。 

国有 天 =4 个 阶 码 位 。 阶 码 偏 置 量 是 7。 

国有 7=4 个 小 数位 。 

下 面 给 出 了 一 些 格 式 A 表 示 的 位 模式 ， 你 的 任务 是 把 它们 转换 成 最 接近 的 格式 了 B 表 示 的 值 。 如 果 
需要 舍 入 ， 你 要 向 + ce 舍 入 。 另 外 ， 给 出 用 格式 A 和 格式 了 表示 的 位 模式 对 应 的 值 。 要 么 是 整数 
(例如 ，17)， 要 么 是 小 数 〔( 例 如 ，17/64 或 17/25) 。 











格式 A 格式 B 


1 01110 001 1 0110 0010 


一 
ol0l010t | 
1oolilttg [| | 
[ 
EE 
EE 






0 00000 101 
1 11011 000 
0 11000 100 


我 们 在 一 个 int 类 型 为 32 位 补 码 表示 的 机 器 上 运行 程序 。float 类 型 的 值 使 用 32 位 IEEE 格式 ， 
而 double 类 型 的 值 使 用 64 位 IEEE 格式 。 
我 们 产生 随机 整数 xX、y 和 z， 并 且 把 它们 转换 成 double 类 型 的 值 : 


/* Create some arbitrary values */ 
int x = random(); 

int y = random(); 

int z = random(); 

/* Convert to double */ 





double dx = (double) x; 
double dy = (double) y; 
double dz = (double) z: 


对 于 下 列 的 每 个 C 表达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1 描述 其 中 的 数学 原理 ， 
和 否则， 列举 出 使 它 为 0 的 参数 的 例子 。 请 注意 ， 不 能 使 用 IA32 机 器 运 运行 GCC 来 测试 你 的 答案 ， 因 
为 对 于 float 和 double， 它 使 用 的 都 是 80 位 的 扩展 精度 表示 。 

A. (double) (float) x == dx 

dx + dy == (double) (x+y) 

. dx+dy+dz==dz+dy+dx 

。 dx * dy* dz == dzZ*dy*dx 

. dx /dx==dy/dy 


分 配给 你 一 个 任务 ， 编 写 一 个 C 函数 来 计算 2 的 浮 点 表示 。 你 意识 到 完成 这 个 任务 的 最 好 方法 
是 直接 创建 结果 的 IEEE 单 精度 表示 。 当 x 太 小 时 ， 你 的 程序 将 返回 0.0。 当 x 太 大 时 ， 它 会 返回 
+ ce。 莫 写 下 列 代码 的 空白 部 分 ， 以 计算 出 正确 的 结果 。 假 设 函 数 u2f 返回 的 浮 点 值 与 它 的 无 符号 
参数 有 相同 的 位 表示 。 站 SS , 


四 总 小 郧 
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* 2.90 


伪 一 部 分 在 访 缕 霓 黎 褒 


float fpwr2(int x) 











{ 

/* Result exponent and fraction */ 

unsigned exp, frac; 

unsigned Ti; 

LR 
/* Too small. Return 0.0 */ 
XD a : 
TAG 

} else if (x<.  )ft 
/* Denormalized result */ 
exp = - 
下 

} else if (x < ) i 
/* Normalized result. */ 
exp = _  ; 
fraC. 

} else { 
/* Too big. Return +OO */ 
exp = a 
frac = _ 

} 

/* Pack exp and frac into 32 bits */ 

u = exp << 23 | frac; 

/* Return as float */ 

return u2f (u); 

} 


大 约 在 公元 前 250 年 ， 希 腊 数学 家 阿 基 米 德 证 明了 办 < x< 等 。 如 果 当 时 有 一 台 计 算 机 和 标准 库 
<math.h>， 他 就 能 够 确定 7 的 单 精度 浮 点 近似 值 的 十 六 进 制 表示 为 0x40490FDB。 当 然 ， 所 有 的 
这 些 都 只 是 近似 值 ， 因 为 zt 不 是 有 理 数 。 
A. 这 个 浮 点 值 表示 的 二 进 制 小 数 是 多 少 ? 

B. 爷 的 二 进 制 小 数 表示 是 什么 ? 提示 : 参见 家 庭 作业 2.82。 
ee i 一 位 (相对 于 二 进 制 小 数 点 ) 开始 不 同 的 ? 
位 级 浮 点 编码 规则 
在 接 下 来 的 题目 中 ， 你 要 写 的 代码 要 实现 浮 点 函数 在 浮 点 数 的 位 级 表示 上 直接 运算 。 你 的 代码 应 该 
完全 遵循 IEEE 浮 点 运算 的 规则 ， 包 括 当 需要 合 入 时 ， 要 使 用 向 偶数 会 入 的 方式 。 
为 此 ， 我 们 定义 数据 类 型 float-bits 等 价 于 unsigned : 


/* Access bit-level representation floating-point number */ 

typedef unsigned float_bits,; 

你 的 代码 中 不 使 用 数据 类 型 float， 而 要 使 用 float_bits。 你 可 以 使 用 数据 类 型 int 和 
unsigned， 包 括 无 符号 和 整数 常数 和 运算 。 你 不 可 以 使 用 任何 联合 、 结 构 和 数组 。 更 重要 的 是 ， 
你 不 能 使 用 任何 浮 点 数据 类 型 、 运 算 或 者 常数 。 取 而 代 之 的 是 ， 你 的 代码 应 该 执行 实现 这 些 指定 的 
浮 点 运算 的 位 操作 。 

下 面 的 函数 说 明了 对 这 些 规则 的 使 用 。 对 于 参数 久 如 果 jJ 是 非 规格 化 的 ， 该 函数 返回 土 0 (保持 / 
的 符号 )， 否 则 ， 返 回信 


/* If f is denorm, return 0. Qtherwise, return f */- 
float_bits float_denorm_zero(float_bits f) { 


*2.91 


** 2.92 


** 2.93 


“2.94 


** 2.95 
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/* Decompose bit representation into parts */ 
unsigned sign = f>>31; 
unsigned exp = f£f>>23 & OXFF ; 
unsigned frac = ££ & OxX7FFFFF; 
if (exp == 0) { 
/* Denormalized. Set fraction to 0 */ 
frac = 0; 
} 
/* Reassemble bits */ 
return (sign << 31) | (exp << 23) | frac; 
} 


遵循 位 级 浮 点 编码 规则 , ,实现 具有 如 下 原型 的 函数 


/* Compute |f|. If fiis NaN, then return f. */ 
float_bits float_absval(float_bits f) ; 


对 于 浮 点 数 J。， 这 个 函数 计算 |f|。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 

测试 你 的 函数 ， 对 参数 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 相 
比较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 


/* Compute ~-E， If f is NaN, then return f. */ 
float_bits float_negate(float_bits f£); 


对 于 浮 点 数 /， 这 个 函数 计算 |f|。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 大 

测试 你 的 函数 ， 对 参数 /可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 相 
比较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具 有 如 下 原型 的 函数 : 


/* Compute 0.5*f, If f is NaN, then return f. */ 
float_bits float_half (float_bits f£); 


对 于 浮 点 数 /， 这 个 函数 计算 0.5"f。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 


测试 你 的 画 数 ， 对 参数 /可 以 取 的 所 有 2 个 信 求 值 ， 将 结果 与 你 使 用 机 器 的 序 点 运算 得 到 的 结果 相 
比较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 ， 


/* .Compute 2*f. If f is NaN, then return f. */ 
float_bits float_twice(float_bits f£); 


对 于 浮 点 数 /， 这 个 函数 计算 2.0.f。 如果/ 是 NaN， 你 的 函数 应 该 简单 地 返回 大 ES 
测试 你 的 函数 ， 对 参数 /可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 相 
比较 。 yy 
遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 


jyr Compute (fioat) i */ 


float_bits float_i2f (int i); 


对 于 函数 i， 这 个 函数 计算 (fioat)i 的 位 级 表示 。 | : 
测试 你 的 函数 ， 对 参数 /可 以 取 的 所 有 22 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 相 
比较 。 
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**2.96 ”遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 


/* 

+ Compute (int) f. 

* Tf conversion causes overflow or f is NaN, return Ox80000000 
*/ 

int float_f2i(float_bits f); 


对 于 浮 点 数 久 这 个 函数 计算 (int) f。 如 果 f 是 NaN， 你 的 函数 应 该 向 零售 入 。 如 果 f 不 能 用 整数 
表示 《例如 ， 超 出 表示 范围 ， 或 者 它 是 一 个 NaN)， 那 么 函数 应 该 返回 0x80000000。 
测试 你 的 函数 ， 对 参数 /可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 相 
比较 。 


练习 题 答 案 


练习 题 2.1 在 我 们 开始 查看 机 器 级 程序 的 时 候 ， 理 解 十 六 进 制 和 二 进 制 格式 之 间 的 关系 将 是 很 重要 的 。 虽 
然 本 书 中 介绍 了 完成 这 些 转换 的 方法 ， 但 是 做 点 练习 能 够 让 你 的 转换 更 加 熟练 。 
A. 将 0x39A7F8 转换 成 二 进 制 : 


十 六 进 制 3 9 A 7 F 8 

二 进 制 0011 1001 1010. 0111 1111 1000 

B. 将 二 进 制 1100100101111011 转换 成 十 六 进 制 : 

二 进 制 1100 1001 0111 1011 

十 六 进 制 C 9 7 B 

C. 将 0xD5E4C 转换 成 二 进 制 : 

十 六 进 制 DD 3 
二 进 制 1101 0101 1110 0100 1100 

D. 将 二 进 制 1001101110011110110101 转换 成 十 六 进 制 : | 
二 进 制 10 0110 1110 0111 1011 0101 
十 六 进 制 2 6 b : S 


练习 题 2.2 这 个 问题 给 你 一 个 机 会 思考 2 的 蹇 和 它们 的 十 六 进 制 表示 。 


2” (十 进 制 ) 










一 
人 








2 (十 六 进 制 ) 


512 
练习 题 2.3 这 个 问题 给 你 一 个 机 会 试 着 对 一 些小 的 数 在 十 六 进 制 和 十 进 制 表示 之 间 进行 转换 。 对 于 较 大 的 
数 ， 使 用 计算 器 或 者 转换 程序 会 更 加 方便 和 可 靠 一 些 。 | 


















十 进 制 十 六 进 抽 
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( 续 ) 


练习 题 2.4。” 当 开 始 调 试 机 内 级 程序 时 ， 你 将 发 现在 许多 情况 中 ， 一 些 简 单 的 十 六 进 制 运算 是 很 有 用 的 。 可 
以 总 是 把 数 转换 成 十 进 制 ， 完 成 运算 ， 再 把 它们 转换 回来 ， 但 是 能 够 直接 用 十 六 进 制 工作 更 加 有 有效， 而 且 
能 够 提供 更 多 的 信息 。 

A. 0x503c+0x8=0x5044。8 加 上 十 六 进 制 c 得 到 4 并 且 进 位 1。 

B. 0x503c-0x40=0x4ffc。 在 第 二 个 数位 ，3 减 去 4 要 从 第 三 位 借 1。 因 为 第 三 位 是 0， 所 以 我 们 必 
须 从 第 四 位 借 位 。 

C. 0x503c+64=0x507c。 十 进 制 64 (2 ) 等 于 十 六 进 制 0x40。 

D. 0x50ea-0x503c=0xae。 十 六 进 制 数 a( 十 进 制 10) 减 去 十 六 进 制 数 c 十进制 12)， 我 们 从 第 
二 位 借 16， 得 到 十 六 进 制 数 e (十 进 制 数 14)。 在 第 二 个 数位 ， 我 们 现在 用 十 六 进 制 (十进制 13) 减 去 3， 
得 到 十 六 进 制 a (十 进 制 10)。 z 
练习 题 2.5 ”这 个 练习 测试 你 对 数据 的 字 书 表示 和 两 种 不 同 字 节 顺序 的 理解 。 











小 端 法 : 21 大 端 法 : 87 
小 端 法 : 21 43- 大 端 法 : 87 65 
小 端 法 :21 43 65 大 端 法 :87 65 43 


回想 一 下 , show_bytes 列举 了 一 系列 字 节 ， 从 低位 地 址 的 字 节 开始 ， 然 后 逐一 列 出 高 位 地 址 的 字 节 。 
在 小 端 法 机 器 上 ， 它 将 按照 从 最 低 有 效 字 节 到 最 高 有 效 字 节 的 顺序 列 出 字 节 。 在 大 端 法 机 器 上 ， 它 将 按照 
从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 列 出 字 节 。 
练习 题 2.6 ”这 又 是 一 个 练习 从 十 六 进 制 到 二 进 制 转 换 的 机 会 。 同 时 也 让 你 思考 整数 和 浮 点 表示 。 我 们 将 在 
本 章 后 面 更 加 详细 地 研究 这 些 表示 。 : 
A. 利用 书 中 示例 的 符号 ， 我 们 将 两 个 囊 写成 : 
0 0 3 5 9 1 4 1 


00000000001101011001000101000001 
米 闵 玉 六 六 六 冰 玉 玉米 冰冰 冰冰 冰冰 六 六 六 闪 


4 A 5 6 4 5 0 4 
O01001010010101100100010100000100 


B. 将 第 二 个 字 相 对 于 第 一 个 字 向 右 移 动 2 位 ， 我 们 发 现 一 个 有 21 个 匹配 位 的 序列 。 

C. 我 们 发 现 除 了 最 高 有 效 位 1， 整数 的 所 有 位 都 赂 在 浮 点 数 中 。 这 正好 也 是 书 中 示例 的 情况 。 另 外 ， 
浮 点 数 有 一 些 非 零 的 高 位 不 与 整数 中 的 高 位 相 匹 配 。 
练习 题 2.7 它 打印 61 62 63 64 65 66。 回 想 一 下 ， 库 函数 stzlen 不 计算 终止 的 空 字符 ， 所 以 
show bytes 只 打印 到 字符 “f£’。 | 
练习 题 2.8 这 是 一 个 帮助 你 更 加 熟悉 布尔 运算 的 练习 。 











”运算 | 人 | 结果 | 
0 [01101001] [01000001] 


一 ， | oo | | ono 
ooronoi oon1100] 
EE | ll 
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练习 题 2.9 ”这 个 问题 说 明了 怎样 用 布尔 代数 描述 和 解释 现实 世界 的 系统 。 我 们 能 够 看 到 这 个 颜色 代数 和 长 
度 为 3 的 位 向 量 上 的 布尔 代数 是 一 样 的 。 0 

A. 颜色 的 取 补 是 通过 对 R、G 和 B 的 值 取 补 得 到 的 。 由 此 我 们 可 以 看 出 ， 白 色 是 黑色 的 补 ， 黄 色 是 蓝 
色 的 补 ， 红 紫色 是 绿色 的 补 ， 蓝 绿色 是 红色 的 补 。 

B. 我 们 基于 颜色 的 位 向 量 表示 来 进行 布尔 运算 。 据 此 ， 我 们 得 到 以 下 结果 ; 


蓝 色 (001) | 绿色 (010) = 蓝 绿色 (011) 
黄色 (110) -位 赣 绿 色 (011) = 绿色 (010) 
红色 (100) -人 ^ 红 紫 色 (101) = 蓝 色 (001) 


练习 题 2.10” 这 个 程序 依赖 两 个 事实 ，EXCLUSIVE-OR 是 可 交换 的 和 可 结合 的 ， 以 及 对 于 任意 的 a， 有 a 人 ^a0。 


EE TT。 
mR |  。 
和 


某 种 情况 下 这 个 函数 会 失败 ， 参 见 练习 题 2.11。 

练习 题 2.11 这 个 题目 说 明了 我 们 的 原 地 交换 规程 微妙 而 有 趣 的 特性 。 
”A.first 和 last 的 值 都 为 k， 所 以 我 们 试图 交换 正中 间 的 元 素 和 它 自 己 。 

B. 在 这 种 情况 下 ，inplace_swap 的 参数 xx 和 Y 都 指向 同一 个 位 置 。 当 计算 *x^*y 的 时 候 ， 我 们 得 
到 0。 然 后 将 0 作为 数组 正中 间 的 元 素 ， 且 后 面 的 步骤 一 直 都 把 这 个 元 素 设置 为 0。 我 们 可 以 看 到 ， 练 习题 
2.10 的 推理 隐 含 地 假设 x 和 y 代表 不 同 的 位 置 。 

C. 将 reverse array 的 第 4 行 的 测试 简单 地 替换 成 first<last， 因 为 没有 必要 交换 正中 间 的 元 素 
和 它 自己 。 
练习 题 2.12 这些 表 达 式 如 下 : 

A.x & ?0xFF 

B.x ^ ~OxFF 

C.x | OxFF 

这 些 表 达 式 是 在 执行 低级 位 运算 中 经 常 发 现 的 典型 类 型 。 表 达 式 ~0xFF 创建 一 个 掩 码 ， 该 掩 码 
8 个 最 低位 等 于 0， 而 其 余 的 位 为 1。 可 以 观察 到 ， 这 些 掩 码 的 产生 和 字 长 无 关 。 而 相 比 之 下 ， 表 达 式 
0xFFFFFF00 只 能 在 32 位 的 机 器 上 工作 。 
练习 题 2.13 ”这 个 问题 有 助 于 你 思考 布尔 运算 和 程序 员 应 用 掩 码 运算 的 典型 方式 之 间 的 关系 。 代 码 如 下 : 










步骤 3 b*(a^b)=(b^b)^a=a 





/* Declarations of functions implementing operations bis and bic */ 
int bis(int x, int m); 
int bic(int x, int m); 


/* Compute xly using only calls to functions bis and bic */ 
int bool_or(int x, int y) + 

int.result = bis(x,y); 

return result; 


} 


~ /* Compute. x“y using only calls to functions bis and bic */ 
int bool_xor(int x, int y) { 
int result = bis(bic(x,y), bic(ly,x)); 
retnrn result,; 


} 


bis 运算 等 价 于 布尔 OR 一 一 如 果 x 或 者 m 中 的 这 一 位 置 位 了 ， 那 么 z 中 的 这 一 位 就 置 位 。 另 一 方面 ， 
bic (x，m) 等 价 于 x&~m ; 我 们 想 实现 只 有 当 x 对 应 的 位 为 1 且 m 对 应 的 位 为 0 时， 该 位 等 于 1。 
由 此 ， 可 以 通过 对 bis 的 一 次 调用 来 实现 |。 为 了 实现 ^ 我 们 利用 以 下 属性 : 
XxX“y=(x&~y) | (~x&y) 
练习 题 2.14 这 个 问题 突出 了 位 级 布尔 运算 和 C 语言 中 的 逻辑 运算 之 间 的 关系 。 常 见 的 编程 错误 是 在 想 用 
逻辑 运算 的 时 候 用 了 位 级 运算 ， 或 者 反 过 来 。 


ev eu 


练习 题 2.15 这 个 表达 式 是 ! (x^y)。 | - 
也 就 是 ， 当 且 仅 当 x 的 每 一 位 和 y 相应 的 每 一 位 匹配 时 ，x^y 等 于 零 。 然 后 ， 我 们 利用 ! 来 判定 一 个 
字 是 否 包 含 任何 非 零 位 。 
没有 任何 实际 的 理由 要 去 使 用 这 个 表达 式 ， 因 为 可 以 简单 地 写成 x==y， 但 是 它 说 明了 位 级 运算 和 如 
辑 运算 之 间 的 一 些 细微 差别 。 和 
练习 题 2.16 ”这 个 练习 可 以 帮助 你 理解 不 同 移 位 运算 。 








X >> 2 X>> 2 


进 抽 二 进 制 。 十 六 进 制 
oxc3 [11000011] | [00011000] 0 [00110000] ox30 | [11110000] 
ox75 [01110101] | [10101000] [00011101] oxip | [00011101] 
ox87 [10000111] | [00111000] [00100001] ox21 | [11100001] 
ox66 [01100110] | [00110000] [00011001] oxi9 | [00011001] 


(逻辑 ) (算术 ) 





练习 题 2.17 “一般 而 言 ， 研 究 字 长 非常 小 的 例子 是 理解 计算 机 运算 的 非常 好 的 方法 。 
无 符号 值 对 应 于 图 .2-2 中 的 值 。 对 于 补 码 值 ， 十 六 进 制 数字 0 一 7 的 最 高 有 效 位 为 0， 得 到 非 负 值 ， 
然而 十 六 进 制 数字 8 ~ 下 的 最 高 有 效 位 为 1， 得 到 一 个 为 负 的 值 。 四 


B2Usz) | B2Ta(x) 


[1110] 23 十 22 十 21=14 -23 十 22 十 21= -2 
[0000] | 0 


[0101] . = 22 +20=5 

[1000] —23 = 一 8 
[1101] B+2+2=13 、| -23+2+2 =-3 

[1111] | 23+22+2i+20=15 | -23 十 22 十 21 十 20= 一 1 





练习 题 2.18 对 于 32 位 的 机 器 ， 由 8 个 十 六 进 制 数字 组 成 ,而 且 开 始 的 那个 数字 在 8 一 之 间 的 任何 值 ， 
都 是 一 个 负数 。 数 字 以 f 串 开头 是 很 普遍 的 事情 ， 因 为 负数 的 起 始 位 全 为 1。 不 过 ， 你 必须 看 仔细 了 。 例 
如 ， 数 0x8048337 仅仅 有 7 个 数字 。 把 起 始 位 壤 入 0， 从 而 得 到 0x08048337， 这 是 一 个 正 数 。 
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甸 一 灾 分 在 序 结 条 和 和 克 疗 

“8048337: 81 ec b8 01 00 00 sub 
804833d: 8b 55 08 mov 
8048340: 83 c2 14 add 
8048343: 8b 85 58 fe ff ff mov 
8048349: 03 02 add 
804834b: 89 85 74 fe ff ff mov 
8048351: 8b 55 08 movV 
8048354: 83 c2 44 add 
8048357: 8b 85 c8 fe ff ff mov 
804835d: 8902 | mov 
804835f: 8b 45 10 moV 
8048362: 03 45 0c add 
8048365: 89 85 ec fe ff ff mov 
804836b: 8b 45 08 mov 
804836e: 83 c0 20 add 
8048371: 8b 00 


moOV 


$0x1b8,%esp z A. 440 
Ox8(%ebp) ,hedx 

$0x14, Wedx B. 20 
Oxfffffe58(%ebp),heax C. -424 
(%edx) ,weax 


Weax,Oxfffffe74(%ebp) 1. 
Ox8(hebp) ,hedx 

$0Ox44, hedx E. 68 
Oxfffffec8(%ebp) ,Xeax 下. 


heax, (hedx) 
Ox10(%ebp) ,heax 6. 16 
Oxc (%ebp) ,%eax H. 12 
Weax,Oxfffffeec(%ebp) I. -276 
Ox8(%ebp) ,heax 

$0x20 ,%eax J. 32 


(Xeax) ,%eax 


练习 题 2.19 从 数学 的 视角 来 看 ， 函 数 T2U 和 U2T 是 非常 奇特 的 。 理 解 它们 的 行为 非常 重要 。 


我 们 根据 补 码 的 值 解答 这 个 问题 ， 重 新 排列 练习 题 2.17 答案 中 的 行 
的 结果 。 我 们 展示 十 六 进 制 值 ， 


， 然 后 列 出 无 符号 值 作为 函数 应 用 


以 使 这 个 进程 更 加 具体 。 





练习 题 2.23 这 些 函 数 的 表达 式 是 常见 的 程序 “习惯 用 语 ”， 





练习 题 2.20 这 个 练习 题 测试 你 对 等 式 (2-6) 的 理解 。 
Tn fT2UAO x +2 对 于 科 下 的 而 个 条 目 ，x 的 值 是非 负 的 ， 并 且 
T2U,(X) =x。 
练习 题 2.21 这 个 问题 加 强 你 对 补 码 和 无 符号 表示 之 问 关系 的 理解 ， 以 及 对 C 语言 升级 规则 ( (promotion 
rule) 的 影响 的 理解 。 回 想 一 下 ，TMin;s 是 -2 147 483 648， 并 且 将 它 强制 类 型 转换 为 无 符号 数 后 ， 变 成 了 
2 147 483 648。 另 外 ， 如 果 有 任何 一 个 运算 数 是 无 符号 的 ， 那 么 在 比较 之 前 ， 另 一 一 个 运算 数 会 被 强制 类 型 
转换 为 无 符号 数 。 
-2147483647-1 == 2147483648U 
-2147483647-1 < 2147483647 
-2147483647-1U < 2147483647 
-2147483647-1 < -2147483647 
-2147483647- 1U < -2147483647 
练习 题 2.22 这 个 红 习 很 具体 地 说 明了 符号 扩展 如 何 傈 持 一 个 补 码 表示 的 半 
A. floll] -23 十 21+20 = 0 
B. [11011] -24+23 十 21+20 = -16+8+2+1 = -5 
C. [111011y -25 上 +24+23+21+20 = -32+16+8+2+1 = -5 


可 以 从 多 个 位 域 打包 成 的 一 个 字 中 提取 值 。 
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它们 利用 不 同 移 位 运算 的 零 韦 充 和 符号 扩展 的 属性 。 请 注意 强制 类 型 转换 和 移 位 运算 的 顺序 。 在 funl 中 ， 
移 位 是 在 无 符号 word 上 进行 的 ， 因 此 是 讼 元 移 位 。 在 fun2 中 ， 移 位 是 在 把 word 强制 类 型 转换 为 int 
之 后 进行 的 ， 因 此 是 算术 移 位 。 


| i Ta 


Ox00000076 0x00000076 0x00000076 


Ox87654321 Ox00000021 Ox00000021 
Ox000000C9 | 0x000000C9 OxXFFFFFFC9 
OxEDCBA987 0x00000087 OxXFFFFFF87 





B. 函数 fun1 从 参数 的 低 8 位 中 提取 一 个 值 ， 得 到 范围 0 ~ 255 之 间 的 一 个 整数 。 函 数 fun2 也 从 这 
个 参数 的 低 8 位 中 提取 一 个 值 ， 但 是 它 还 要 执行 符号 扩展 。 结 果 将 是 介 于 一 128 一 127 之 间 的 一 个 数 。 
练习 题 2.24 对 于 无 符号 数 来 说 ， 截 断 的 影响 是 相当 直观 的 ， 但 是 对 于 补 码 数 却 不 是 。 这 个 练习 让 你 使 用 
非常 小 的 字 长 来 研究 它 的 属性 。 


十 六 进 制 和 
原始 数 ”| 截断 后 的 数 截断 后 的 数 





正如 等 式 (2.9) 所 描述 的 ， 这 种 截断 无 符 导 数值 的 结果 就 是 发 现 它们 模 8 余数 。 截断 有 符号 数 的 镶 
果 要 更 复杂 一 些 。 根 据 等 式 (2-10)， 我 们 首先 计算 这 个 参数 模 8 后 的 余数 。 对 于 参数 0 一 7， 将 得 出 什 
0 一 7， 对 于 参数 -8 ~ -1 也 是 一 样 。 然 后 我 们 对 这 些 余数 应 用 函数 U2T;， 得 出 两 个 0 一 3 和 -4 一 1 序 
列 的 反复 。 
练习 题 2.25 设计 这 个 问题 是 要 说 明 从 有 符号 数 到 无 符号 数 的 隐 趟 强制 类 型 转换 很 容易 引起 错误 。 将 参 
数 length 作为 一 个 无 符号 数 来 传递 看 上 去 是 件 相 当 自 然 的 事情 ， 因 为 没有 人 会 想到 使 用 一 个 长 度 为 
负数 的 值 。 停 止 条 件 i<=length-1 看 上 去 也 很 自然 。 但 是 把 这 两 点 组 合 到 一 起 ， 将 产生 意 想不到 的 
结果 ! 

因为 参数 length 是 无 符号 的 ， 计 算 0-1 将 进行 无 符号 运算 ， 这 等 价 于 模 数 加 法 。 结 果 得 到 UMax。 
人 比较 进行 同样 使 用 无 符号 数 比较 ， WA Ne 所 以 这 个 比较 总 是 为 真 
因此 ， 代 码 将 试图 访问 数组 a 的 非法 元 素 。 

有 两 种 方法 可 以 改正 这 段 代码 ， 其 一 是 将 length 声明 为 int 类 型 ， 其 二 是 将 for 循环 的 测试 条 件 改 
为 i <1length。 
练习 题 2.26 这 个 例子 说 明了 无 符号 运算 的 一 个 细微 的 特性 ， 同时 也 是 我 们 执行 无 符号 运算 时 不 会 意识 到 
的 属性 。 这 会 导致 一 些 非常 国手 的 错误 。 

A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 当 s 比 七 短 的 时 候 ， 该 函数 会 不 正确 地 返回 1。 

B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 由 于 strlen 被 定义 为 产生 一 个 无 待 号 的 结果 ， 差 和 比较 都 
采用 无 符号 运算 来 计算 。 当 s 比 七 短 的 时 候 ， ten -strlen (t) 会 为 负 ， 但 是 变 成 了 一 个 很 大 
的 无 符号 数 ， 且 大 于 0。 

Gop 将 测试 语句 改 成 : 


return strlen(s) > strlen(t); 


练习 题 2.27 这 个 函数 是 对 确定 无 符号 加 法 是 否 溢出 的 规则 的 直接 实现 


96 田 一 次 分 在 序 红 霓 大雪 闻 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok (unsigned x, unsigned y) { 

unsigned sum = X+y; 

return sum >= xX; - 


} 


练习 题 2.28 ”本题 是 对 算术 模 16 的 简单 示范 。 最 容易 的 解决 方法 是 将 十 六 进 制 模式 转换 成 它 的 无 符号 十 
进 制 值 。 对 于 非 零 的 x 人 ,一定 有 (总 区 +x==16。 然 后 ， 我 们 就 可 以 将 取 补 后 的 什 转 痪 回 十 六 进 制 。 

六 进 制 | 十 进 制 。 | 十 进 制 | 十 
0 
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练习 题 2.29 本题 的 目的 是 确定 你 理解 了 补 码 加 法 。 
x |， | x+y | xz 站 | 情况 
-12 -15 二 77 5 1 
[10100] | [10001] [100101] | [00101] 
-8 a -16 16 | 2 
-9 8 | | 2 
2 5 
2 










| 










7 和 
1 4 16 -16 | 4 
[01100] | [00100] [010000] | [10000] 


… +» 


练习 题 2.30 这 个 函数 是 对 确定 补 码 加 法 是 否 游 出 的 规则 的 直接 实现 。 


/* Determine whether arguments can be added without overflow */ 
int tadd_ok(int x, int y) 1 
| int sum = x+y:; . 

int neg_over = x < 0&&y< 0 && sum >= 0; 

int pos_over = x >= 0 &&y >=0 & sum< 0; 

return !neg.over && !pos_over,; 


} 


练习 题 2.31 通过 对 2.3.2 节 的 学 习 ， 你 的 同事 可 能 已 经 学 会 补 码 加 上 形成 一 个 阿 贝 尔 群 ， 以 及 表达 式 
(x+y) 一 x 求 值得 到 y， 无 论 加 法 是 否 溢出， 而 (x+y) --Y 总 是 会 求 值得 到 x。 
练习 题 2.32 这 个 函数 会 给 出 正确 的 值 ， 除 了 当 y 等 于 TMin 时 。 在 这 个 情况 下 ， 我 们 有 一 y 也 等 于 
TMin， 因 此 函数 tadd_ek 会 认为 只 要 x 是 负数 时 ， 就 会 负 溢出 。 实 际 上 ， 此 时 x-Y 根本 就 没有 溢出 。 
这 个 练习 说 明 ， 在 函数 的 任何 测试 过 程 中 ，TiMin 都 应 该 作为 一 种 测试 情况 。 
练习 题 2.33 ”本 题 用 非常 小 的 字 长 帮助 你 理解 补 码 的 非 。 < 
对 于 w=4， 我 人 有 TMins=-8。 因 此 -8 是 它 自己 的 加 法 逆 元 ， 而 其 他 数值 是 通过 整数 非 来 取 非 的 。 
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对 于 无 符号 数 的 非 ， 位 的 模式 是 相同 的 。 
练习 题 2.34 本题 的 目的 是 确定 你 理解 了 补 码 乘法 。 


xX:y 截断 了 的 x y 


4 [100] 5 [101] [o10100] 4 [100] 
-4 [100] | -3 [101] [001100] | -4 [100] 
2 6 


[010] . [111] [001110] [110] 
2 [010] [111] [111110] | -2 [110] 


6 [110] 6 [110] [100100] 4 [100] 
-2 [110] | -2 [110] [000100] | -4 [100] 





练习 题 2.35 用 所 有 可 能 的 x 和 y 测试 一 遍 这 个 函数 显然 是 不 现 实 的 。 当 数据 类 型 int 为 32 位 时 ， 即 
使 你 每 秒 运行 一 百 亿 个 测试 ， 也 需要 .8 年 才能 完成 所 有 的 组 合 。 另 一 方面 ， 把 函数 中 的 数据 类 型 改 成 
short 或 者 char， 然 后 再 穷尽 测试 ， 倒 是 测试 代码 的 一 种 可 行 的 方法 。 

我 们 提出 以 下 论据 ， 这 是 一 个 更 理论 的 方法 : 

1. 我 们 知道 x"y 可 以 写成 一 个 2w 位 的 补 码 数 字 。 用 w 表示 低 w 位 的 无 符号 数 ，v 表示 高 w 位 的 补 码 
数字 。 那 么 ， 根 据 等 式 (2-3)， 我 们 可 以 得 到 x :y= V2"*+u。 z 

我 们 还 知道 4 = 7T2U,( p )， 因 为 它们 是 从 同一 个 位 模式 得 出 来 的 无 符号 和 补 码 数 字 ， 因 此 根据 等 式 
(2-5)， 我 们 有 w=p+p,_12"， 这 里 pi 是 p 的 最 高 有 效 位 。 设 1=V+ p,,1， 我 们 得 到 x'y=p+12"。 

当 1=0 时， 有 x:y=p; 乘法 不 会 洲 出 。 当 1 关 0 时 ， 有 x'y 关 p ; 乘法 滋 出 。 

2. 根据 整数 除法 的 定义 ， 用 非 零 数 x 除 以 会 得 到 商 g 和 余数 r， 即 p=x.q+r,， 且 |r|<|x|。( 这 里 
用 的 是 绝对 值 ， 因 为 x 和 的 符号 可 能 不 一 致 。 例 如 ，7 除 以 2 得 到 商 -3 和 余数 一 1。) 

3. 假设 gqg=y， 那 么 有 x:y=x:y+r+12"。 在 此 ， 我 们 可 以 得 到 r+12"=0。 但 是 |r|<|x| < 2"， 所 以 
只 有 当 t=0 时 ， 这 个 等 式 才 会 成 立 ， 此 时 +r=0。 

假设 r=1=0， 那 么 我 人 有 x:y=x.q， 隐 含有 y= 9。 : 

当 x=0 时 ， 乘 法 不 溢出 ， 所 以 我 们 的 代码 提供 了 一 种 可 靠 的 方法 来 测试 补 码 乘法 是 否 会 导致 溢出 。 
练习 题 2.36 如果 用 64 位 表示 ， 乘 法 就 不 会 有 溢出 。 然 后 我 们 来 验证 将 乘积 强制 类 型 转换 为 32 位 是 否 会 
改变 它 的 值 : 


1 /* Determine whether arguments can be multiplied without overflow */ 
2 int tmult_ok(int x, int y) 

3 /* Compute product without overflow */ 

4 long long pll = (long long) x*y; 

5 /* See if casting to int es value */ 

6 return pll == Cat P11; 
7 


pe 


98 慢 一 部 分 大 序 红 专 和 和 效 疗 


long long pll] = x*y; 


就 会 用 32 位 值 来 计算 乘积 (可 能 会 溢出 )， 然 后 再 符号 扩展 到 64 位 。 
练习 题 2.37 | 

A. 这 个 改动 完全 没有 帮助 。 虽 然 asize 的 计算 会 更 准确 ， 但 是 调用 malloc 会 导致 这 个 值 被 转换 成 
.一 个 32 位 无 符号 数字 ， 因 而 还 是 会 出 现 同样 的 溢出 条 件 。 

B. malloc 使 用 一 个 32 位 无 符号 数 作为 参数 ， 它 不 可 能 分 配 一 个 大 于 2 ”个 字 节 的 块 ， 因 此 ， 没 有 必 
要 试图 去 分 配 或 者 复印 这 样 大 的 一 块 存储 器 。 取 而 代 之 的 ， 函 数 应 该 放弃 ， 返 回 NULL， 用 下 面 的 代码 取代 
对 malloc 原始 的 调用 (第 10 行 ) : 


long long unsigned required_size = 
ele_cnt * (long long unsigned) ele_size; 
size_t request_size = (size_t) required._size; 
if (required_size != request_size) 
/* Qverflow must have occurred. Abort operation +*/ 
return NULL ; 
void *result = malloc(request_size); 
if (result == NULL) 
/* malloc failed */ 
return NULL; 


0 在 第 3 章 ， 我 们 将 看 到 很 多 实际 的 LEA 指令 的 例子 。 用 这 个 指令 来 支持 指针 运算 ， 但 是 C 

言 编译 器 经 常用 它 来 执行 小 常数 乘法 。 

对 于 每 个 大 的 值 ， 可 以 计算 出 2 的 倍数 : 2 ( 当 b 为 0 时 ) 和 2+1( 当 b 为 a 时 )。 因 此 我 们 能 够 计 
算出 倍数 为 1, 2, 3, 4, 5,8 和 9 的 值 。 
练习 题 2.39 这 个 表达 式 简 单 地 变 成 了 一 (x<<m) 。 要 看 清 一 点 ， 设 字 长 为 w, =w-1。 形 式 也 说 我 们 要 
计算 (x<<w) 一 (x<<m) ， 但 是 将 x 向 左 移动 w 位 会 得 到 值 0。 
练习 题 2.40 这 个 题目 要 求 你 使 用 讲 过 的 优化 技术 ， 同时 也 需要 自己 的 一 点 儿 创 造 力 。 


本 


(x<<2) + (x<<1) 
(x<<5) -x 

(x<<1) -~ (x<<3) 
(x<<6) - (x<<3) -x 








可 以 观察 到 ， 第 四 种 情况 使 用 了 形式 了 的 改进 版 本 。 我 们 可 以 将 位 模式 [110111] 看 作 6 个 连续 的 1 中 
间 有 一 个 0， 因 而 我 们 对 形式 B 应 用 这 个 原则 ， 但 是 需要 在 后 来 把 中 间 0 位 对 应 的 项 减 掉 。 
练习 题 2.41 假设 加 法 和 减法 有 同样 的 性 能 ， 那 么 原则 就 是 当 xm 时， 选择 形式 A， 当 n=mtl 时 ， 随便 
选 哪 种 ， 而 当 jz>m+l 时 ， 选 择 形 式 B。 

这 个 原则 的 证 明 如 下 。 首 先 假设 m>1。 当 n=m 时 ， 形 式 A 只 需要 1 个 移 位 ， 而 形式 B 需要 2 个 移 位 
和 1 个 减法 。 当 n=mt+l 时 ， 这 两 种 形式 都 需要 2 个 移 位 和 1 个 加 法 或 者 1 个 减法 。 当 >m+l 时 ， 形 式 B 
只 需要 2 个 移 位 和 1 个 减法 ， 而 形式 A 需要 nmt+1>2 个 移 位 和 n 一 m>1 个 加 法 。 对 于 m=1 的 情况 ， 对 于 形 
式 A 和 B 都 要 少 1 个 移 位 ， 所 以 在 两 者 中 选择 时 ， 还 是 适用 同 料 的 原则 。 
练习 题 2.42 这 里 唯一 的 挑战 是 不 用 任何 测试 或 条 件 运算 计算 偏 置 量 。 我 们 利用 了 一 个 诀 等 ， 表 达 式 
x>>31 产生 一 个 字 ， 如 果 x 是 负数 ， 这 个 字 为 全 1， 否则 为 全 0。 通 过 掩 码 屏 项 适当 的 位 ， 我 们 就 得 到 期 
望 的 偏 置 值 。 
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int divi6(int Xx) 二 
/* Compute bias to be either 0 (x >= 0) or 15 (x < 0) */ 
int bias = (x >> 31) & OxF:; . 
return (x + bias) >> 4; 


} 


练习 题 2.43 我 们 发 现 当 人 们 直接 与 汇编 代码 打交道 时 是 有 困难 的 。 但 当 把 它 放 入 optarith 所 示 的 形式 
中 时 ， 问 题 会 变 得 更 加 清晰 明了 。 

我 们 可 以 看 到 M 是 31; 是 用 (x<<5) 一 x 来 计算 xxM。 

我 们 可 以 看 到 NN 是 8; 当 y 是 负数 时 ， 加 上 偏 置 量 7， 并 且 右 移 3 位 。 
练习 题 2.44 这些 “C 的 谜 题 ” 清 楚 地 告诉 程序 员 必 须 理解 计算 机 运算 的 属性 。 

A. (x>0) 11((x-1)<0) 

假 。 设 x 等 于 一 2 147 483 648 (TMin;,)。 那 么 ， 有 x 一 1 等 于 2147483647 (TMax3s)。 

B. (x&7) !=7| | (x<<29<0) 

真 。 如 果 (x&7) !=7 这 个 表达 式 的 值 为 0， 那 么 必须 有 位 x 等 于 1。 当 左 移 29 位 时 ， 这 个 位 将 变 成 
符号 位 。 

C. (x*x) >=0 

假 。 当 xX 为 65535 (0xFFFF) 时 ，x*x 为 一 131 071 (0xFFFE0001)。 

D. x<0 | | 一 x<= 0 

真 。 如 果 x 是 非 负数 ， 则 -x 是 非 正 的 。 

E. x>0 | | 一 X>=0 : 

假 。 设 xX 为 一 2 147 483 648 (TMin3,)。 那 么 x 和 -x 都 为 负数 。 

F. x+y==uUy+ux 

真 。 和 而 且 它们 是 可 交换 的 。 

GG.x*~ytuy*ux==—X  ;. 

真 。~y 等 于 一 y 一 1 。uy*ux 等 于 xxy。 因 此 ， 等 式 左 边 等 价 于 x* 一 y 一 x+xX*y。 
练习 题 2.45 ”理解 二 进 制 小 数 表 示 是 理解 浮 点 编码 的 一 个 重要 步 又。 这 个 练习 让 你 试验 一 -此 简单 的 例子 ， 


0.001 0. 
0.11 
1.1001 
10.1011 
1.001 
101.111 
11.0011 





1 
8 
3 
4 
25 
16 
43 
16 
9 
8 
和 4 
8 
51 
16 


考虑 二 进 制 小 数 表示 的 一 个 简单 方法 是 将 一 个 数 表 示 为 形 如 该 的 小 数 。 he oe met 
的 过 程 是 : 使 用 x 的 二 进 制 表示 ， 并 把 二 进 制 小 数 点 插入 从 右边 算 起 的 第 个 位 置 。 A 对 于 我 
有 25io 二 11001:;。 然 后 把 二 进 制 小 数 点 放 在 从 右 算 起 的 第 4 位， 得 到 开 1001，;。 
练习 题 2.46 ”在 大 多 数 情况 下 ， 浮 点 数 的 有 限 精度 不 是 主要 的 问题 ， 因 为 计算 的 相对 误差 仍然 是 相当 低 
的 。 然 而 在 这 个 例子 中 ， 系 统 对 于 绝对 误差 是 很 敏感 的 。 
Se 进 制 表示 为 : 
0.000000000000000000000001 100[1100]. 
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B. 9.34X10”X100X60X60X10=0.343 秒 。 

C. 0.343X2000 = 687 米 。 
练习 题 2.47 研究 字 长 非常 小 的 浮 点 表示 能 够 帮助 涪 清 I 下 EE 浮 点 是 怎样 工作 的 。 要 特别 注意 非 规格 化 数 
和 规格 化 数 之 间 的 过 渡 。 
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练习 题 248 十 六 进 制 0x359141 等 价 于 二 进 制 [1101011001000101000001]。 将 之 右 移 21 位 得 到 
1.101011001000101000001, XZ。 除 去 起 始 位 的 1 并 增加 2 个 0 形成 小 数 域 ， 从 而 得 到 [10101100100010100000100]。 阶 码 是 通过 
21 加 上 偏 置 量 127 形成 的 ， 得 到 148( 二 进 制 [10010100])。 我 们 把 它 和 符号 字段 0 联合 起 来 ， 得 到 二 进 制 表示 


[01001010010101100100010100000100] 
我 们 看 到 两 种 表示 中 匹配 的 位 对 应 于 整数 的 低位 到 最 高 有 效 位 等 于 1， 匹 配 小 数 的 高 21 位 : 


0 0 3 5 9 1 4 1 
00000000001101011001000101000001 
米 六 六 冰冰 冰冰 水 六 闵 冰 来 六 末 冰 玉米 玉 六 冰冰 


4 A 5 6 4 5 0 4 
01001010010101100100010100000100 


练习 题 2.49 ”这 个 练习 帮助 你 思考 什么 数 不 能 用 浮 点 准确 表示 。 
”A. 这 个 数 的 二 进 制 表示 是 : 1 后 面 跟着 nn 个 0， 其 后 再 跟 1， 得 到 的 值 是 2”+ 1。 
B. 当 n=23 时 ， 值 是 2%*+1=16777217。 
练习 题 2.50 ”人 工 合 入 带 助 你 强化 二 进 制 数 合 入 到 偶数 的 概念 。 
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练习 题 2.51 
A. 从 1/10 的 无 穷 序列 中 我 们 可 以 看 到 ， 合 入 位 置 右边 2 位 都 是 1， 所 以 10 更 好 一 点 儿 的 近似 值 应 
该 是 对 x 加 1， 得 到 x'=0.00011001100110011001101,， 它 比 0.1 大 一 点 儿 。 
B. 我 们 可 以 看 到 x' 一 0.1 的 二 进 制 表示 为 : 
0.0000000000000000000[1100] 


将 这 个 值 与 10 的 二 进 制 表示 比较 ， 我 们 可 以 看 到 它 等 于 2X1/10， 大 约 等 于 2.38X10”。 
C. 2.38X10-3X100X60X60X10= 0.086 秒 ， 爱 国 者 导弹 系统 中 的 误差 是 它 的 4 倍 。 
D. 0.086X2000= 171 米 。 
练习 题 2.52 这 个 题目 考查 了 很 多 有 关 浮 点 表示 的 概念 ， 包 括 规格 化 和 非 规格 化 的 值 的 编码 ， 以 及 合 入 。 


0111 000 
1001 111 


0110 100 ， 回 上 舍 人 
1011 000 癌 下 舍 人 
0001 000 Denorm 一 norm| 





练习 题 2.53 “一般 来 说 ， 使 用 库 宏 〈library macro) 会 比 你 自己 写 的 代码 更 好 一 些 。 然 而 这 段 代码 似乎 可 以 
在 多 种 机 器 上 工作 。 
假设 值 le400 溢出 为 无 穷 。 


#define POS_INFINITY ie400 
#define NEG_INFINITY (~-POS_INFINITY) 
#define NEG_ZERO (~-1.0/POS_INFINITY) 


练习 题 2.54 ”这 个 练习 可 以 帮助 你 从 程序 员 的 角度 来 提高 研究 浮 点 运算 的 能 力 。 确 信 自 己 理解 下 面 每 一 个 答案 。 

A. x== (int) (double)x 

真 ， 因 为 double 类 型 比 int 类 型 具有 更 大 的 精度 和 范围 。 
B. x== (int) (float)x 
假 ， 例 如 当 x 为 TMax 时 。 
C.d== (double) (float)dqd 
假 ， 例 如 当 Q 为 le40 时 ， 右 边 得 到 十 
D. f== (float) (double)f 
真 ， 因 为 double 类 型 比 float 类 型 具有 更 大 的 精度 和 范围 。 
E. f==- (-f£) 
真 ， 因 为 浮 点 数 取 非 就 是 简单 地 对 它 的 符号 位 取 反 。 | 
F.1.0/2==1/2.0 
真 ， 在 执行 除法 之 前 ， 人 表示 。 

G.dqxqQ>=0.0 
oh 

H. (f+d) -f= 

” 候 ， 例如 当 f£ 是 1.0e20 而 d 是 1. 0 时 ， 表 达 式 ftd 会合 入 到 1 .0e20， 因此 左边 的 表达 式 求 值得 

到 0.0， 而 右边 是 1.0。 
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程序 的 机 器 级 表示 





”计算 机 执行 机 器 代码 ， 用 字 节 序列 编码 低级 的 操作 ， 包 括 处 理 数据 、 管 理 存储 器 、 读 写 存储 
设备 上 的 数据 ， 以 及 利用 网 络 通信 。 编 译 器 基于 编程 语言 的 原则 、 目 标 机 器 的 指令 集 和 操作 系统 
遵循 的 规则 ， 经 过 一 系列 的 阶段 产生 机 器 代码 。GCC C 语言 编译 器 以 汇编 代码 的 形式 产生 输出 ， 
汇编 代码 是 机 器 代码 的 文本 表示 ， 给 出 程序 中 的 每 一 条 指令 。 然 后 GCC 调用 汇编 器 和 链接 器 ， 
从 而 根据 汇编 代码 生成 可 执行 的 机 器 代码 。 在 本 章 中 ， 我 们 会 近 距 离 地 观察 机 器 代码 ， 以 及 人 类 
可 读 的 表示 一 一 汇编 代码 。 : 

当 我 们 用 高 级 语言 编程 的 时 候 〈 例 如 C 语言 ，Java 语言 更 是 如 此 )， 机 器 屏蔽 了 程序 的 细节 ， 
即 机 器 级 的 实现 。 与 此 相反 ， 当 用 汇编 代码 编程 的 时 候 〈 就 像 早期 的 计算 》， 程 序 员 必 须 指 定 程 
序 的 低级 指令 以 执行 计算 。 高 级 语言 提供 的 抽象 级 别 比较 高 ， 大 多 数 时 候 ， 在 这 种 抽象 级 别 上 工 
作 效 率 会 更 高 ， 也 更 可 靠 。 编 译 器 提供 的 类 型 检查 能 帮助 我 们 发 现 许 多 程序 错误 ， 并 能 够 保证 按 
照 一 致 的 方式 来 引用 和 处 理 数据 。 通 常情 况 下 ， 现 代 的 优化 编译 器 产生 的 代码 至 少 与 一 个 熟练 的 
汇编 语言 程序 员 手 工 编写 的 代码 一 样 有 效 。 最 大 的 优点 是 ， 用 高 级 语言 编写 的 程序 可 以 在 很 多 不 
同 的 机 器 上 编译 和 执行 ， 而 汇编 代码 则 是 与 特定 机 器 密切 相关 的 。 四 

那么 为 什么 我 们 还 要 花 时 间 学 习 机 器 代码 呢 ? 即 使 编译 器 承担 了 产生 汇编 代码 的 大 部 分 工 
作 ， 对 于 严谨 的 程序 员 来 说 ， 能 够 阅读 和 理解 汇编 代码 仍 是 一 项 很 重要 的 技能 。 以 适当 的 命令 行 
选项 调用 编译 器 ， 编 译 器 就 会 产生 一 个 以 汇编 代码 形式 表示 的 输出 文件 。 通 过 阅读 这 些 汇编 代 
码 ， 我 们 能 够 理解 编译 器 的 优化 能 力 ， 并 分 析 代 码 中 隐 含 的 低 效 率 。 就 像 我 们 将 在 第 5 章 中 体会 
到 的 那样 ， 试 图 最 大 化 一 段 关 键 代码 的 性 能 的 程序 员 ， 通 常会 尝试 源 代 码 的 各 种 形式 ， 每 次 编译 
并 检查 产生 的 汇编 代码 ， 从 而 了 解 程序 将 要 运行 的 效率 如 何 。 此 外 ， 也 有 些 时 候 ， 高 级 语言 提供 
的 抽象 层 会 隐藏 我 们 想 要 了 解 的 有 关 程 序 运行 时 行为 的 信息 。 例 如 ， 第 12 章 会 讲 到 ， 当 用 线程 
包 写 并 发 程序 时 ， 知 道 存储 器 保存 不 同 的 程序 变量 的 区 域 是 很 重要 的 。 这 些 信 息 在 汇编 代码 级 是 
可 见 的 。 另 外 再 举 一 个 例子 ， 程 序 遭 受 攻 击 使 得 蠕虫 和 病毒 能 够 侵扰 系统 ) 的 许多 方式 中 ， 都 
涉及 程序 存储 运行 时 控制 信息 方式 的 细节 。 许 多 攻击 利用 了 系统 程序 中 的 漏洞 重 写 信息 ， 从 而 获 
得 系统 的 控制 权 。 了 解 这 些 漏洞 是 如 何 出 现 的 以 及 如 何 防御 它们 ， 需 要 具备 程序 机 器 级 表示 的 知 
识 。 程序 员 学 习 汇 编 代码 的 需求 随 着 时 间 的 推移 也 发 生 了 变化 ， 开 始 时 只 要 求 程序 员 能 直接 用 汇 
编 语言 编写 程序 ， 现 在 则 是 要 求 他 们 能 够 阅读 和 理解 编译 器 产生 的 代码 。 : 

在 本 章 中 ， 我 们 将 详细 学 习 两 种 特别 的 汇编 语言 ， 了 人 解 如 何 将 C 程序 编译 成 这 些 形式 的 机 
嚣 代码。 阅读 编译 器 产生 的 汇编 代码 ， 需 要 具备 的 技能 不 同 于 手工 编写 汇编 代码 。 我 们 必须 了 
解 典型 的 编译 器 在 将 C 程序 结构 变换 成 机 器 代码 时 所 做 的 转换 。 相 对 于 C 代码 表示 的 计算 操作 ， 
优化 编译 器 能 够 重新 排列 执行 顺序 ， 消 除 不 必要 的 计算 ， 用 快速 操作 蔡 换 慢 速 操作 ， 甚 至 将 递归 
计算 变换 成 迭代 计算 。 源 代码 与 对 应 的 汇编 码 的 关系 通常 不 太 容易 理解 一 一 就 像 要 拼 出 的 拼图 与 
盒子 上 图 片 的 设计 有 点 不 太一 样 。 这 是 一 种 逆向 工程 (reverse engineering) 一 一 通过 研究 系统 和 
逆向 工作 ， 来 试图 了 解 系统 的 创建 过 程 。 在 这 里 ， 系 统 是 一 个 机 器 产生 的 汇编 语言 程序 ， 而 不 是 
由 人 设计 的 某 个 东西 。 这 简化 了 逆向 工程 的 任务 ， 因 为 产生 的 代码 遵循 比较 规则 的 模式 ， 而 且 我 
们 可 以 做 试验 ， 让 编译 器 产生 许多 不 同 程序 的 代码 。 本 章 提 供 了 许多 示例 和 大 量 的 练习 ， 来 说 明 
汇编 语言 和 编译 器 的 各 个 不 同 的 方面 。 精 通 细节 是 理解 更 深 和 更 基本 概念 的 先决 条 件 。 有 人 说 : 
“我 理解 了 一 般 规则 ， 不 愿意 劳 神 去 学 习 细节 ! ”他 们 实际 上 是 在 自欺欺人 。 兹 时 间 研 究 这 些 示 
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例 、 完 成 练习 并 对 照 提 供 的 答案 来 检查 你 的 答案 ， 是 非常 关键 的 。 

本 章 基于 两 种 相关 的 机 器 语言 : Intel IA32 和 x86-64。 前 者 是 当今 大 多 数 计算 机 的 主导 语言 ， 
而 后 者 是 前 者 在 64 位 机 器 上 运行 的 扩展 。 我 们 先 从 IA32 开始 。Intel 处 理 器 是 在 1978 年 从 简单 
的 16 位 处 理 器 发 展 起 来 的 ， 现 在 已 经 成 为 桌面 计算 机 、 笔 记 本 电脑 和 服务 器 计算 机 的 主流 处 理 
器 。 其 体系 结构 也 在 相应 地 发 展 ， 加 入 新 特性 后 ， 它 从 16 位 体系 结构 转变 成 了 支持 32 位 数据 和 
地 址 的 IA32。IA32 看 起 来 是 一 个 相当 奇怪 的 设计 ， 有 些 特性 只 有 从 历史 的 角度 来 看 才 有 意义 。 
它 还 具有 提供 后 向 兼容 性 的 特性 ， 而 现代 编译 器 和 操作 系统 根本 不 使 用 这 些 特性 。 我 们 将 关注 
GCC 和 Linux 使 用 的 那些 特性 ， 这 样 可 以 避免 许多 IA32 的 复杂 性 和 隐秘 特性 。 

我 们 在 技术 讲解 之 前 ， 先 快速 浏览 C 语言 、 汇 编 代 码 以 及 机 器 代码 之 间 的 关系 。 然后 介绍 
IA32 的 细节 ， 从 数据 的 表示 和 处 理 以 及 控制 的 实现 开始 。 了 解 C 语言 中 的 控制 结构 (如 if、 
while 和 switch 语句) 是 如 何 实现 的 。 然 后 ， 我 们 会 讲 到 过 程 的 实现 ， 包 括 程 序 如 何 维护 一 

个 运行 栈 来 支持 过 程 间 数 据 和 控制 的 传递 ， 以 及 局 部 变量 的 存储 。 接 下 来 ， 我 们 会 考虑 在 机 器 级 
如 何 实现 像 效 组 、 结构 和 联合 这 样 的 数据 结构 。 有 了 这 些 机 器 级 编程 的 背景 知识 ， 我 们 就 能 够 解 
决 存储 器 访问 越界 的 问题 ， 以 及 系统 容易 遭受 缓冲 区 淤 出 攻击 的 问题 。 EA 
会 给 出 一 些 用 GDB 调试 器 检查 机 器 级 程序 运行 时 行为 的 技巧 。 

正如 我 们 会 讨论 的 那样 ， 将 IA32 扩展 到 64 位 ， 称 为 x86-64， 最 初 是 由 Intel 的 最 大 竞争 
者 一 一 Advanced Micro Devices (AMD) 开发 出 来 的 。32 位 机 器 只 能 使 用 大 概 4GB (2”* 字 节 ) 
的 随机 访问 存储 器 《〈 译 者 注 ; 即 内 存 )， 而 目前 的 64 位 机 器 能 够 使 用 多 达 256TB (2 字 节 ) 的 
内 存 空间 。 计 算 机 产业 正 处 在 从 32 位 机 到 64 位 机 过 渡 的 阶段 。 大 多 数 较 新 的 服务 器 和 桌面 机 以 
及 许多 笔记 本 电脑 的 微 处 理 器 ， 都 支持 32 位 或 者 64 位 运算 。 然 而 ， 运 行 在 这 些 机 器 上 的 操作 系 
统 ， 大 多 数 都 只 支持 32 位 的 应 用 ， 因 此 ， 硬 件 的 能 力 没 有 被 充分 利用 。 随 着 存储 器 价格 的 下 降 ， 
以 及 执行 大 规模 数据 集 应 用 需求 的 上 升 ，64 位 机 器 和 应 用 会 变 得 越 来 越 普遍 。 因 此 ， 近 距离 地 
看 一 看 x86-64 是 非常 必要 的 。 我 们 会 看 到 在 实现 32 位 到 64 位 的 转变 中 ，AMD 的 工程 师 加 入 了 
一 些 特 性 ， 有 的 使 机 器 对 优化 编译 器 来 说 是 更 好 的 目标 机 器 ， 还 有 的 提高 了 系统 性 能 。 

”我 们 提供 了 网 络 旁 注 ， 里 面包 含 一 些 专门 针对 机 器 语言 爱好 者 的 内 容 。 其 中 一 个 内 容 ， 仔 细 
检查 了 采用 高 级 别 优 化 编译 生成 的 代码 。GCC 编译 器 的 每 个 新 版 本 都 比 前 一 版 本 实现 了 更 精密 
的 优化 算法 ， 极 大 地 改变 了 程序 的 面 角 ， 以 至 于 很 难 辨 认 初 始 源 代码 与 生成 的 机 器 级 程序 之 间 
的 关系 。 另 一 个 网 络 旁 注 简 要 描述 了 在 C 语言 程序 中 岁入 汇编 代码 的 一 些 方法 。 在 一 些 应 用 中 ， 
程序 员 必 须 用 汇编 代码 来 访问 机 器 的 低级 特性 。 一 种 方法 是 ， 整 个 函数 都 用 汇编 代码 来 写 ， 然 后 
在 链接 阶段 与 C 语言 函数 结合 起 来 。 第 二 种 方法 是 在 C 语言 程序 中 直接 利用 GCC 对 舱 和 人 汇编 代 
码 的 支持 。 我 们 把 两 种 不 同 机 器 语言 的 浮 氮 代码 分 别 放 在 两 个 网 络 旁 注 中 。 早 期 的 Intel 处 理 器 
就 可 以 使 用 “x87” 浮 点 指令 了 。x87 的 浮 点 实现 尤为 隐 了 星 ， 所 以 我 们 建议 那些 决心 要 在 比较 陈 
旧 的 机 器 上 使 用 浮 点 代码 的 人 才 适 合 学 习 这 个 部 分 。 相 对 于 x87 指令 ， 较 新 的 “SSE” 指 令 是 为 
了 支持 多 媒体 应 用 而 开发 的 ， 但 是 使 用 SSE 指令 的 较 新 版 本 (版 本 2 以 后 的 版 本 )， 配 合 较 新 的 
GCC 版 本 ， 已 经 成 为 将 浮 点 运算 映射 到 IA32 和 x86-64 机 器 上 的 首选 方法 。 


3.1 历史 观点 

Intel 处 理 器 系列 俗称 x86， 经 历 了 一 个 长 期 的 、 不 断 进化 的 发 展 过 程 。 开 始 时 它 是 第 一 代 
单 芯片 、16 位 微 处 理 器 之 一 ， 由 于 当时 集成 电路 技术 水 平 十 分 有 限 ， 其 中 做 了 很 多 妥协 。 此 后 ， 
它 不 断 地 成 长 ， 利 用 进步 的 技术 满足 更 高 性 能 和 支持 更 高 级 操作 系统 的 需求 。 

以 下 列举 了 一 些 Intel 处 理 器 的 模型 ， 以 及 它们 的 一 些 关 键 特 性 ， 特 别 是 影 啊 机 器 级 编程 的 
特性 。 我 们 用 实现 这 些 处 理 器 所 需要 的 晶体 管 数量 来 说 明 演变 过 程 的 复杂 性 〈K 表示 1000， 而 
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8086 : (1978 年 ，29 K 个 晶体 管 ) 它 是 第 一 代 单 芯片 、 16 位 微 处 理 器 之 一 。8088 是 8086 
的 一 个 变 体 ， 在 8086 上 增加 了 一 个 8 位 外 部 总 线 ， 构 成 最 初 的 IBM 个 人 计算 机 的 心脏 。IBM 
与 当时 还 不 强大 的 微软 签订 合同 ， 开 发 MS-DOS 操作 系统 。 最 初 的 机 器 型 号 有 32 768 字 节 的 存 
储 器 和 两 个 软驱 (没有 硬盘 驱动 器 )。 从 体系 结构 上 来 说 ， 这 些 机 器 只 有 655 360 字 节 的 地 址 空 
间 一 一 地 址 只 有 20 位 长 〈 可 寻 址 范围 为 1 048 576 字 节 )， 而 操作 系统 保留 了 393 216 字 节 自用 。 
1980 年 ，Intel 提出 了 8087 浮 点 协 处 理 器 (45K 个 晶体 管 )， 它 与 一 个 8086 或 8088 处 理 器 一 同 
运行 ， 执 行 浮 点 指令 。8087 树立 了 x86 系列 的 浮 点 模型 ，' 通 常 称 为 “x87”。 

80286 : (1982 年 ，134K 个 晶体 管 ) 它 增 加 了 更 多 的 寻 址 模式 (有 些 现在 已 经 废弃 了 )， 构 
成 了 IBM PC-AT 个 人 计算 机 的 基础 ， 这 种 计算 机 是 MS Windows 最 初 的 使 用 平台 。 

i386 : (1985 年 ，275K 个 晶体 管 ) 体系 结构 扩展 到 了 32 位。 增加 了 平坦 寻 址 模式 (flat 
addressing model)，Linux 和 最 近 版 本 的 Windows 系列 操作 系统 都 是 使 用 的 这 种 模式 。 这 是 Intel 
系列 中 第 一 台 支 持 Unix 操作 系统 的 机 器 。 , 

i486 : (1989 年 ，1.2M 个 晶体 管 ) 改善 了 性 能 ， 同时 将 浮 点 单元 集成 到 0 但 

是 指令 集 没 有 明显 的 改变 。 

Pentium : (1993 年 ，3. 1M 个 上 晶体 管 ) 改善 了 性 能 ， 不 过 只 (对 指 今 集 增加 了 小 的 扩展 ， 

PentiumPro : (1995 年 , 5.5M 个 晶体 管 ) 引入 全 新 的 处 理 器 设计 ， 内 部 称 为 P6 微 体系 结构 。 
指令 集中 增加 了 一 类 “条 件 传送 ”(conditional move) 指令 。 

Pentium 1 : (1997 年 ，7M 个 晶体 管 ) P6 微 体系 结构 的 延伸 。 

Pentium 山 : (1999 年 ，8.2M 个 晶体 管 ) 引入 了 SSE， 这 是 一 类 处 理 整数 或 浮 点 数 疝 量 的 指 
令 。 每 个 数据 可 以 是 1、2 或 4 个 字 节 ， 打 包 成 128 位 的 向 量 。 站 
这 种 芯片 后 来 的 版 本 最 多 使 用 了 24M 个 晶体 管 。 

Pentium 4 ; (2000 年 ，42M 个 晶体 管 ) SSE 扩展 到 了 SSE2， 增加 了 新 的 数据 类 型 (包括 双 
精度 浮 点 数 )， 以 及 针对 这 些 格 式 的 144 个 新 指令 。 有 了 这 些 扩展 ， 编 译 器 可 以 用 SSE 指令 (而 
不 是 x87 指令 )， 来 编译 浮 点 代码 。 引 入 了 NetBurst 人 人 
上 ， 但 代价 是 高 能 耗 。 

Pentium 4E : (2004 年 ，125M 个 晶体 管 ) 增加 了 超 线 程 人 这 种 技术 可 以 
在 一 个 处 理 器 上 同时 运行 两 个 程序 ; 还 增加 了 EM64T,， 是 Intel 实现 了 AMD 提出 的 对 IA32 的 
64 位 扩展 ， 即 我 们 熟悉 的 x86-64。 

Core 2 : (2006 年 ，291M 个 晶体 管 ) 回归 到 关 似 于 P6 的 微 体系 结 直 构 。 第 一 个 Intel 的 多 核 
微 处 理 器 ， 将 多 个 处 理 器 实现 在 一 个 芯片 上 。 但 是 不 支持 超 线程 。 

Core i7 : (2008 年 ，781M 个 晶体 管 ) 噬 支 持 超 线程 人 最 初 的 版 本 支持 每 个 核 上 
执行 两 个 程序 ， 每 个 芯片 上 最 多 四 个 核 ， 

每 个 后 继 处 理 器 的 设计 都 是 后 向 兼容 的 __ 较 早 版 本 上 编译 的 代码 可 以 在 较 新 的 处 理 器 上 运 
行 。 正 如 我 们 看 到 的 那样 ， 为 了 保持 这 种 进化 传统 ， 指 令 集 中 有 许多 非常 奇怪 的 东西 。Intel 系 
列 有 好 几 个 名 字 ， 包 括 IA32， 也 就 是 “Intel 32 位 体系 结构 ”(Intel Architecture 32-bit)， 以 及 最 
新 的 Intel64， 即 IA32 的 64 位 扩展 ， 我 们 也 称 为 x86-64。 我 们 最 常用 的 名 3 “x86” 用 它 指 - 
代 整 个 系列 ， 也 反映 了 直到 i486 处 理 器 命名 的 惯例 。 


摩尔 定律 (Moore’ s Law) 

如 果 我 们 画 出 各 种 不 同 的 :Intel 人 们 出 现 的 年 份 之 间 的 坐标 图 () 轴 
为 晶体 管 数量 的 对 数值 )， 我 们 能 够 看 出 ， 增 长 是 很 显著 的 。 划 一 条 线 穿 过 这 些 数据 ， 可 以 看 到 
晶体 管 数 量 以 每 年 大 约 38% 的 速率 增长 ， 也 就 是 说 ， 晶 体 管 数 量 每 26 个 月 就 会 翻 一 番 。 在 x86 
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微 处 理 器 的 历史 上 ， 这 种 增长 已 经 持续 了 好 几 十 年 。 
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1965 年 ，Gordon Moore，Intel 公司 的 创始 人 ， 根 据 当 时 的 芒 片 技术 ( 那 时 他 们 能 够 在 一 个 
芯片 上 制造 有 大 约 64 个 晶体 管 的 电路 ) 做 出 推断 ， 预 测 在 未 来 10 年 ， 芯 片上 的 晶体 管 数 量 每 年 
都 会 翻 一 香 。 这 个 预测 就 称 为 摩尔 定律 。 正 如 事实 证 明 的 那样 ， 他 的 预测 不 仅 有 点 乐观 ， 而 且 短 
视 。 在 超过 45 年 中 ， 半 导体 工业 一 直 能 够 使 晶体 管 数 目 每 18 个 月 翻 一 香 。 

在 计算 机 技术 的 其 他 方面 ， 也 有 类 似 的 指数 增长 的 情况 出 现 ， 比 如 磁盘 容量 ， 存 储 器 芯片 容 
量 和 处 理 器 性 能 。 这 些 显著 的 增长 速度 已 经 成 为 计算 机 革命 的 主要 驱动 力 。 


这 些 年 来 ， 许 多 公司 都 生产 出 了 与 Intel 处 理 器 兼容 的 处 理 器 ， 能 够 运行 完全 相同 的 机 器 级 
程序 。 其 中 ， 领 头 的 是 AMD。 数 年 来 ，AMD 在 技术 上 紧 跟 Intel 公司 ， 执 行 的 市 场 策略 是 : 生 
产 的 处 理 器 性 能 稍 低 但 是 价格 更 便宜 。2002 年 ，AMD 的 处 理 器 变 得 更 加 有 竞争 力 ， 它 们 率先 突 
破 了 可 商用 微 处 理 器 的 1G Hz 的 时 钟 速度 屏障 ， 并 且 引 入 了 广泛 采用 的 1A32 的 64 位 扩展 x86- 
64。 虽 然 我 们 讲 的 是 Intel 处 理 器 ， 但 是 对 于 其 竞争 对 手 生 产 的 与 之 兼容 的 处 理 器 来 说 ， 这 些 表述 
也 同样 成 立 。 . 

对 于 由 GCC 编译 器 产生 的 、 在 Linux 操作 系统 平台 上 运行 的 程序 ， 感 兴趣 的 人 大 多 数 并 不 
关心 x86 的 复杂 性 。 最 初 的 8086 提供 的 存储 器 模型 和 它 在 80286 中 的 扩展 都 已 经 过 时 了 。 作 为 
蔡 代 ，Linux 使 用 了 平坦 寻 址 方式 (flat addressing)， 使 程序 员 将 整个 存储 空间 看 做 一 个 大 的 字 节 
数组 。 

从 上 述 的 发 展 过 程 中 我 们 可 以 看 到 ，x86 中 加 入 了 很 多 处 理 小 整数 和 浮 点 数 向 量 的 格式 和 指 
令 。 增 加 这 些 特 性 提高 了 多 媒体 应 用 程序 的 性 能 ， 例 如 图 像 处 理 、 音 频 视 频 的 编码 和 解码 ， 以 及 
三 维 计算 机 图 形 。 虽 然 这 种 1985 年 代 的 微 处 理 器 几乎 已 经 没有 了 ， 但 是 GCC 为 32 位 执行 的 默 
认 调 用 ， 仍 然 假设 是 为 386 机 器 产生 代码 。 只 有 给 出 指定 的 命令 行 选 项 ， 或 是 为 64 位 执行 进行 
编译 时 ， 编 译 器 才 会 使 用 更 新 一 些 的 扩展 功能 。 

在 接 下 来 的 部 分 ， 我 们 会 将 注意 力 集中 在 IA32 指令 集 上 。 在 本 章 结尾 ， 我 们 将 了 解 x86-64 
的 64 位 扩展 。 


3.2 程序 编码 


假设 一 个 C 程序 ， 有 两 个 文件 pl .c 和 P2 .c。 我 们 在 一 台 IA32 机 器 上 ， 用 Unix 命令 行 编 
译 这 些 代码 如 下 : 


unix> gcc -01 -0 p pi.c p2.c 
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命令 gcc 指 的 就 是 GCC C 编译 器 。 因 为 这 是 Linux 上 默认 的 编译 器 ， 我 们 也 可 以 简单 地 用 cc 来 
启动 它 。 编 译 选项 -01 告诉 编译 器 使 用 第 一 级 优化 。 通 常 ， 提 高 优化 级 别 会 使 最 终 程序 运行 得 
更 快 ， 但 是 编译 时 间 可 能 会 变 长 ， 用 调试 工具 对 代码 进行 调试 会 更 困难 。 正 如 我 们 还 会 看 到 的 ， 
使 用 更 高 级 别 的 优化 产生 的 代码 会 严重 改变 形式 ， 以 至 于 产生 的 机 器 代码 和 初始 源 代 码 之 间 的 关 
系 非常 难以 理解 。 因 此 我 们 会 使 用 第 一 级 优化 作为 学 习 工 具 ， 然 后 当 我 们 增加 优化 级 别 时 ， 再 看 
会 发 生 什么 。 实 际 中 ， 从 得 到 的 程序 性 能 方面 考虑 ， 第 二 级 优化 (选项 -02 指定 ) 被 认为 是 较 
好 的 选择 。 
实际 上 gcc 命令 调用 了 一 系列 程序 ， 将 源 代码 转化 成 可 执行 代码 。 首 先 ，C 预 处 理 器 扩展 
源 代码 ， 插 入 所 有 用 #include 命令 指定 的 文件 ， 并 扩展 所 有 用 #define 声明 指定 的 宏 。 然 后 ， 
编译 器 产生 两 个 源 代码 的 汇编 代码 ， 名 字 分 别 为 pl.s 和 p2.s。 接 下 来 ,汇编 器 将 汇编 代码 转 
化 成 二 进 制 目标 代码 文件 名 为 pl.o 和 Pp2.o。 目 标 代 码 是 机 器 代码 的 一 种 形式 ， 它 包含 所 有 指 
令 的 二 进 制 表示 ， 但 是 还 没有 填 人 地 址 的 全 局 值 。 最 后 ， 链 接 器 将 两 个 目标 代码 文件 与 实现 库 函 
数 〈 例 如 Printf) 的 代码 合并 ， 并 产生 最 终 的 可 执行 代码 文件 p。 可 执行 代码 是 我 们 要 考虑 的 
机 器 代码 的 第 二 种 形式 ， 也 就 是 处 理 器 执行 的 代码 格式 。 我 们 会 在 第 7 章 更 详细 地 介绍 这 些 不 同 
形式 机 器 代码 之 间 的 关系 以 及 链接 的 过 程 。 
3.2.1 机 器 级 代码 
正如 在 1.9.2 市 中 讲 过 的 那样 ， 计 算 机 系统 使 用 了 多 种 不 同形 式 的 抽象 ， 利用 更 简单 的 抽象 
模型 来 隐藏 实现 的 细节 。 对 于 机 器 级 编程 来 说 ， 其 中 两 种 抽象 尤为 重要 。 第 一 种 是 机 器 级 程序 的 
格式 和 行为 ， 定 义 为 指令 集体 系 结构 (Instruction set architecture，ISA)， 它 定义 了 处 理 器 状态 、 
指令 的 格式 ， 以 及 每 条 指令 对 状态 的 影响 。 大 多 数 ISA， 包 括 IA32 和 x86- 64， 将 程序 的 行为 描 
述 成 好 像 每 条 指令 是 按 顺序 执行 的 ， 一 条 指令 结束 后 ， 下 一 条 再 开始 。 处 理 器 的 硬件 远 比 描述 的 
精细 复杂 ， 它 们 并 发 地 执行 许多 指令 ， 但 是 可 以 采取 措施 保证 整体 行为 与 ISA 指定 的 顺序 执行 
完全 一 致 。 第 二 种 抽象 是 ， 机 器 级 程序 使 用 的 存储 器 地 址 是 虚拟 地 址 ， 提 供 的 存储 器 模型 看 上 去 
是 一 个 非常 大 的 字 节 数 组 。 存 储 器 系统 的 实际 实现 是 将 多 个 硬件 存储 器 和 操作 系统 软件 组 合 起 
来 ， 这 会 在 第 9 章 中 讲 到 。 
在 整个 编译 过 程 中 ， 编 译 器 会 完成 大 部 分 的 工作 ， 将 把 用 C 语言 提供 的 相对 比较 抽象 的 执 
行 模型 表示 的 程序 转化 成 处 理 器 执行 的 非常 基本 的 指令 。 汇 编 代 码 表 示 非 常 接 近 于 机 器 代码 。 与 
机 器 代码 的 二 进 制 格式 相 比 ， 汇 编 代码 有 一 个 的 主要 特点 ， 即 它 用 可 读 性 更 好 的 文本 格式 来 表 
示 。 能 够 理解 汇编 代码 以 及 它 与 原始 C 代码 的 联系 ， 是 理解 计算 机 如 何 执行 程序 的 关键 一 步 。 
IA32 机 器 代码 和 原始 的 C 代码 差别 非常 大 。 一 些 通常 对 C 语言 程序 员 隐 藏 的 处 理 器 状态 是 
可 见 的 : 
。 程 序 计 数 器 (在 IA32 中 ， 通 常 称 为 “PC”， 用 seip 表示 ) 指示 将 要 执行 的 下 一 条 指令 在 
存储 器 中 的 地 址 。 
“整数 寄存 器 文件 包含 8 个 命名 的 位 置 ， 分 别 存 储 32 位 的 值 。 这 些 寄存 器 可 以 存储 地 址 
(对 应 于 C 语言 的 指针 ) 或 整数 数据 。 有 的 寄存 器 被 用 来 记录 某 些 重要 的 程序 状态 ， 而 其 
他 的 寄存 器 则 用 来 保存 临时 数据 ， 例 如 过 程 的 局 部 变量 和 函数 的 返回 值 。 
。 条 件 码 寄存 器 保存 着 最 近 执 行 的 算术 或 逻辑 指令 的 状态 信息 。 它 们 用 来 实现 控制 或 数据 流 
中 的 条 件 变化 ， 比 如 说 用 来 实现 if 和 while 语句 。 
“一 组 浮 点 寄存 器 存放 浮 点 数据 。 
虽然 C 语言 提供 了 一 种 模型 ， 可 以 在 存储 器 中 声明 和 分 配 各 种 数据 类 型 的 对 象 ， 但 是 机 器 
代码 只 是 简单 地 将 存储 器 看 成 一 个 很 大 的 、 按 字 节 寻 址 的 数组 。C 语言 中 的 聚合 数据 类 型 ， 例 如 
数组 和 结构 ， 在 机 器 代码 中 用 连续 的 一 组 字 节 来 表示 。 即 使 是 标量 数据 类 型 ， 汇 编 代 码 也 不 区 分 
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有 符号 或 无 符号 整数 ， 不 区 分 各 种 类 型 的 指针 ， 甚 至 不 区 分 指针 和 整数 。 

程序 存储 器 〈program memory) 包含 : 程序 的 可 执行 机 器 代码 ， 操 作 系 统 需要 的 一 些 信息 ， 
用 来 管理 过 程 调用 和 返回 的 运行 时 栈 ， 以 及 用 户 分 配 的 存储 器 块 〈 比 如 说 用 malloc 库 函 数 分 
配 的 )。 正 如 前 面 提 到 的 ， 程 序 存储 器 用 虚拟 地 址 来 寻 址 。 在 任意 给 定 的 时 刻 ， 只 认为 有 限 的 一 
部 分 虚拟 地 址 是 合法 的 。 例 如 ， 虽 然 IA32 的 32 位 地 址 可 以 寻 址 4GB 的 地 址 范围 ， 但 是 通常 一 
个 程序 只 会 访问 几 兆 字 节 。 操 作 系统 负责 管理 虚拟 地 址 空间 ， 将 虚拟 地 址 翻译 成 实际 处 理 器 存储 
器 (processor memory) 中 的 物理 地 址 。 

一 条 机 器 指令 只 执行 一 个 非常 基本 的 操作 。 例 如 ， 将 存放 在 寄存 器 中 的 两 个 数字 相 加 ， 在 存 
储 器 和 寄存 器 之 间 传 送 数据 ， 或 是 条 件 分 支 转移 到 新 的 指令 地 址 。 编 译 器 必须 产生 这 些 指令 的 序 
列 ， 从 而 实现 〈 像 算术 表达 式 求 值 、 循 环 ee eI 程序 结构 。 z 


干 变 万 化 的 生成 代码 的 格式 

在 本 书 的 表述 中 ， 我 们 给 出 的 代码 是 由 特定 版 本 的 GCC 在 特定 的 命令 行 选项 设置 下 产生 
的 。 如 果 你 在 自己 的 机 器 上 编译 代码 ， 很 有 可 能 用 到 其 他 的 编译 器 或 者 不 同 版 本 的 GCC， 因 而 
会 产生 不 同 的 代码 。 支 持 GCC 的 开源 社区 一 直 在 修改 代码 产生 器 ， 试 图 根据 微 处 理 器 制造 商 提 
供 不 断 变化 的 代码 规则 ， 产 生 更 有 效 的 代码 。 

本 书 中 示例 的 目标 是 说 明 如 何 查看 汇编 代码 ， 并 将 它 反 向 映射 到 高 级 纺 程 语言 让 的 构 。 你 
rE ee tt ed Ae 
3.2.2 代码 示例 . 

侵 没 我 们 写 了 一 个 C 语 言 代码 文件 code ,c， 包 全 的 过 程 定义 如 下 


int accum = 0; 


int sum(int x, int y) 


accum += 七 ， 


1 

2 

3 

4 

3 int t=x+y; 

. ， 
7 return 了 七; 
8 


} 
在 命令 行 上 使 用 “-S” 选 项 ， 就 能 得 到 C 语言 编译 器 产生 的 汇编 代码 : 


unix> gcc -01 -9 code.c 


这 会 使 GCC 运行 编译 器 ， 产 生 一 个 汇编 文件 code .s， 但 是 不 做 其 估 浊 一步 的 工作 (通常 情况 
下 ， 它 还 会 继续 调用 汇编 器 产生 目标 代码 文件 )。 
汇编 代码 文件 包含 各 种 声明 ， 包 括 下 面 几 行 


Sunm : 
pushl ”ebp 
movl hesp, webp 
movl 12(%ebp), heax 
addl 8(%ebp), %eax 
add] heax, accum 
popl %ebp 
ret 


以 上 代码 中 每 个 缩 进 去 的 行 都 对 应 一 条 机 器 指令 。 比 如 ，pushl 指令 表示 应 该 将 寄存 器 $ebp 
的 内 容 压 人 程序 栈 。 这 段 代 码 中 已 经 除去 了 所 有 关于 局 部 变量 名 或 数据 类 型 的 信息 。 我 们 还 看 到 
了 一 个 对 全 局 变量 accum 的 引用 ， 这 是 因为 编译 器 还 不 能 确定 这 个 变量 会 放 在 存储 器 中 的 哪个 
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位 置 。 
如 果 我 们 使 用 “-c， 命 令 行 选项 ，GCC 会 编译 并 汇编 该 代码 ; 

unix> 9cc -01 -~c code.c 
这 就 会 产生 目标 代码 文件 code.o， 它 是 二 进 制 格 式 ， 所 以 无 法 直接 查看 。800 字 节 的 文件 
code.o 中 有 一 段 17 个 字 节 序列 ， 它 的 十 六 进 制 表示 为 : 


55 89 e5 8b 45 0c 03 45 08 01 05 00 00 00 00 5d c3 


这 就 是 上 面 列 出 的 汇编 指令 对 应 的 目标 代码 。 从 中 得 到 一 个 重要 信忠， 即 机 器 实际 执行 的 程序 只 
是 对 一 系列 指令 进行 编码 的 字 节 序列 。 机 器 对 产生 这 些 指令 的 源 代码 几 子 一 无 所 知 。 


如 何 找到 程序 的 字 节 表示 
.要 产生 这 些 字 节 ， 我 们 用 有 反 汇 编 器 (后 面 会 讲 到 的 ) 来 确定 函数 sum 的 代码 长 是 17 字 节 。 
然后 ， 在 文件 code .o 上 运行 GNU 调试 工具 GDB， 输 入 命令 : 


(gdb) x/17xb sum 


这 条 命令 告诉 GDB 检查 (简写 为 “x”) 17 个 十 六 进 制 格 式 (起 简写 为 ‘x”) 的 字 节 (简写 为 
‘p’)。 你 会 发 现 ，GDB 的 很 多 有 用 的 特性 可 以 用 来 分 析 机 器 级 程序 ， 我 们 会 在 3.11 节 中 讨论 。 


要 查看 目标 代码 文件 的 内 容 ， 最 有 价值 的 是 反 汇 编 器 Cds bl 这 些 程序 根据 目标 代 
码 产生 一 种 类 似 于 汇编 代码 的 格式 。 在 Linux 系统 中 ， 带 “-Qq” 命令 行 标志 的 程序 OBJDUMP 
(表示 “object dump”) 可 以 充当 这 个 角色 : 


unix> objdump -Qa code.o 


结果 如 下 这里， 我 们 在 左边 增加 了 行 号， 在 右边 增加 了 和 斜体 表示 的 注解 ) : 


Disassembly of function Sun in binary 了 ie code.o 


1 00000000 <sum>: 


Offset Bytes Equivalent assembly language 
2 0: 55 push webp 
3 1: 89 e5 mov %esp ,webp 
4 3: 8b 45 0c moOV Oxc (%ebp) ,%eax 
5 6: 03 45 08 add Ox8(%ebp) ,heax 
6 9 : 01 05 00 00 00 00 add heax,OXO 
7 f: 5d pop hebp 
8 10 : c3 ret 


左边 ， 我 们 看 到 按照 前 面 的 字 节 顺序 排列 的 17 个 十 六 进 制 字 节 值 ， 它 们 分 成 了 几 组 ， 每 组 有 
1 一 6 个 字 节 。 每 组 都 是 一 条 指令 ， 右 边 是 等 价 的 汇编 语言 。 
其 中 一 些 关 于 机 器 代码 和 它 的 反 汇 编 表 示 的 特性 值得 注意 : 
* IA32 指令 长 度 从 1 到 15 个 字 节 不 等 。 常 用 的 指令 以 及 操作 数 较 少 的 指令 所 需 的 字 节 数 少 ， 
而 那些 不 太 常用 或 操作 数 较 多 的 指令 所 需 字 节 数 较 多 。 z 
*。 设 计 指 令 格 式 的 方式 是 ， 从 某 个 给 定位 置 开 始 ， 可 以 将 字 节 唯一 地 解码 成 机 器 指令 。 例 
如 ， 只 有 指令 push1 %ebp 是 以 字 节 值 55 开头 的 。 
.。 反 汇编 器 只 Na a Eo a ta A 它 不 需要 访问 程序 的 源 代 
-得 或 汇编 代码 。 
. 反 汇编 器 使 用 的 指令 命名 规则 与 GCC 生成 的 汇编 代码 使 用 的 有 些 细微 的 差别 . 在 我 们 的 
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示例 中 ， 它 省 略 了 很 多 指令 结尾 的 1。 这 些 后缀 是 大 小 指示 符 ， 在 大 多 数 情况 下 可 以 
忽略 。 2 
生成 实际 可 执行 的 代码 需要 对 一 组 目标 代码 文件 运行 链接 器 ， 而 这 一 组 目标 代码 文件 中 必须 
含有 一 个 main 函数 。 假 设 在 文件 main.c 中 有 下 面 这 样 的 函数 : 


int main() 

2 1 

3 return Sum(1，3) ; 
4 } 


然后 ， 我 们 用 如 下 方法 生成 可 执行 文件 prog : 


unix> gcc -01 -oo prog code.o main.c 


文件 prog 变 成 了 9 123 个 字 节 ， 因 为 它 不 仅 包含 两 个 过 程 的 代码 ， 还 包含 了 用 来 启动 和 终止 程 
序 的 信息 ， 以 及 用 来 与 操作 系统 交互 的 信息 。 我 们 也 可 以 反 汇编 prog 文件 : 


unix> objdump -d prog 


反 汇 编 器 会 抽取 出 各 种 代码 序列 ， 包 括 下 面 这 段 : 


Disassembly of function sum in executable file prog 


1 08048394 <sum>: 


Offset Bytes Equivalent assgimnbly language 
2 8048394: 55 Push  %ebp 
3 8048395: 89 e5 mov kesp, hebp 
4 8048397: 8b 45 0c -mov Oxc (Webp) ,%eax 
5 804839a: 03 45 08 add Ox8(%ebp) ,%eax 
6 804839d: 01 05 18 a0 04 08 add beax ,Ox804a018 
7 80483a3: 5d pop %ebp 
8 


80483a4: 53 ret 


ee 与 code.c 反 汇 编 产 生 的 代码 几乎 完全 一 样 。 其 中 一 个 主要 的 区 别 是 左边 列 出 的 地 址 
一 段 不 同 的 地 址 范围 中 。 第 二 个 不 同 之 处 在 于 链接 器 确定 了 存 
储 全 局 变量 accum 的 地 址 。 在 code.o 反 汇编 代码 的 第 6 行 ， accum 的 地 址 还 是 0。 在 prog 
的 反 汇编 代码 中 ， 地 址 就 设 成 了 0x804a018。 这 可 以 从 指令 的 汇编 代码 格式 中 看 到 。 还 可 以 从 
指令 的 最 后 4 个 字 节 中 看 出 来 ， 从 最 低位 到 最 高 位 列 出 就 是 18 a0 04 08。 
3.2.3 ”关于 格式 的 注解 

GCC 产生 的 汇编 代码 对 我 们 来 说 有 点 儿 难 懂 。 一 方面 ， 它 包含 一 些 我 们 不 需要 关心 的 信 
息 ; 另 一 方面 ， 它 不 提供 任何 程序 的 描述 或 它 是 如 何 工作 的 描述 。 例 如 ， 假 设 文件 simple.c 
包含 下 列 代 码 : 





int simple(int *xp, int y) 


1 

2 1 

3 int t = *xp + yj 
4 *xp = t， 

5 return 七; 

6 


当 带 选项 ‘-s” 和 “-01 运行 GCC 时 ， 它 产生 下 面 的 文件 simple.s ; 


.file "simple.c" 
.text 
.globl simple 
.type simple, @function 


110 。 莫 一 部 分 在 序 绒 移交 并- 


simple: . 
pushl ‘webp 
movl hesp, hebp 
movl . 8(%ebp), %edx 
movl 12(%ebp) , heax 
addl (hedx) , heax 
movl %eax, (hedx) 
popl %ebp 
ret 
.Size simple, .-simple 
.ident "GCC: (Ubuntu 4.3.2-1tubuntul1) 4.3.2" 
.Section .note.GNU-stack,"",@progbits 


所 有 以 “.” 开 头 的 行 都 是 指导 汇编 器 和 链接 器 的 命令 。 我 们 通常 可 以 忽略 这 些 行 。 男 一 方 
面 ， 没 有 关于 这 些 指令 的 用 途 以 及 它们 与 源 代码 之 间 关 系 的 解释 说 明 。 

为 了 更 清楚 地 说 明 汇编 代码 ， 我 们 用 一 种 格式 来 表示 汇编 代码 ， 它 省 略 了 大 部 分 指令 ， 但 包 
括 行 号 和 解释 性 说 明 。 对 于 我 们 的 示例 ， 以 下 是 带 解释 的 汇编 代码 : 


1 simple: 

2 pushl ”ebp Save frame pointer 

3 movl %esp,%ebp Create new frame pointer 
4 movl 8(%ebp) ; hedx Retrieve xp 

5 movl 12(%ebp), heax Retrieve 了 

6 . addl (%edx) , heax Add *xp to get t 

7 movl Weax, (hedx) Store t at xp 

8 popl %ebp “~ Restore frame pointer 

9 ret Return’ 


通常 我 们 只 会 给 出 与 讨论 内 容 相关 的 代码 行 ， 每 一 行 的 左边 都 有 编号 供 引用 ， 右边 是 注释 ， 
简 单 地 描述 指 仿 的 效果 以 及 它 与 原始 C 语言 i A did 关系 。 这 是 一 种 汇编 语言 言 言 程序 
员 写 代码 的 风格 。 


ATT 与 Intel 汇编 代码 格式 

我 们 的 表述 是 ATT (根据 “AT&T” 命名 的 ， AT&T 是 运营 贝 尔 实验 室 多 年 的 公司 格 
式 的 汇编 代码 ， 这 是 GCC、OBJDUMP 和 其 他 一 些 我 们 使 用 的 工具 的 默认 格式 。 其 他 一 些 编 
程 工具 ， 和 包括 Microsoft 的 工具 ， 以 及 来 自 JIntel 的 文档 ， 其 汇编 代码 部 是 Intel 格式 的 。 这 
ta A 例如 ， 使 用 下 述 命令 行 ， GCC 可 以 产生 : sum. 通 数 的 Intel 格 
式 代码 : 

unix> gcc -01 -5 ed pg 

这 个 命令 得 到 下 列 汇编 代码 : 


Assembly code for simple in lntel format 


1 simple: 

2 push ebp 

3 mov ebp, esp 
4 mov edx, DWORD PTR [ebp+8] 
5 moV eax, DWORD PTR [ebp+12] 
6 add eax，DWORD PTR [edx] 

7 mov DWORD PTR [edx], eax 

8 pop ebp 

9 ret 


我 们 看 到 Intel 和 ATT 格式 在 以 下 方面 有 所 不 同 : 
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。Intel 代码 省 略 了 指示 大 小 的 后 级 。 我 们 看 到 指令 moV， 而 不 是 mov1l。 

。Intel 代码 省 略 了 寄存 器 名 字 前 面 的 '$' 符号 。 用 的 是 esp， 而 不 是 Sesp。 

。JIntel 代码 用 不 同 的 方式 来 描述 存储 器 中 位 置 。 例 如 ， 是 'DWORD PTR [ebp+8]' 而 不 是 
‘8 (Sebp)’。 : 

。 在 带 有 多 个 操作 数 的 指令 情况 下 ， 列 出 操作 数 的 顺序 相反 。 当 在 两 种 格式 之 间 进 行 转换 的 
时 候 ， 这 一 点 非常 令 人 困惑 。 

虽然 我 们 的 表述 中 不 使 用 Intel 格式 ， 但 是 你 会 在 来 自 Intel 的 IA32 文档 和 来 自 Microsoft 的 

Windows 文档 中 遇 到 它 。 


3.3 数据 格式 


由 于 是 从 :16 位 体系 结构 扩展 成 32 位 的 ，Intel 用 术语 “ 字 ”(word) 表示 16 位 数据 类 型 。 
因此 ， 称 32 位 数 为 “ 双 字 ”(double words)， 称 64 位 数 为 “四 字 ”(quad words)。 我 们 后 面 遇 
到 的 大 多 数 指令 都 是 对 字 节 或 双 字 操作 的 。 

图 3-1 给 出 了 C 语言 基本 数据 类 型 对 应 的 IA32 表示 。 大 多 数 常用 数据 类 型 都 是 以 双 字 形式 
存储 的 。 其 中 ， 包 括 普通 整数 . (int) 和 长 整数 (long int), 无 论 它们 是 否 有 符号 。 此 外 ， 
所 有 的 指针 〈 在 此 用 char* 表示 ) 都 存储 为 4 字 节 的 双 字 。 处 理 字符 串 数据 时 ， 通 常会 用 到 字 
节 。 我 们 在 第 2.1 节 中 讲 到 过 ，C 语言 比较 新 的 扩展 中 有 数据 类 型 long 1ong， 它 是 用 8 个 字 
节 来 表示 的 。 在 硬件 上 ，IA32 不 支持 这 种 数据 类 型 。 相 反 地 ， 编 译 器 必须 产生 指令 序列 ， 一 次 
要 对 这 32 位 数据 进行 操作 。 浮 点 数 有 三 种 形式 : 单 精度 (4 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 
float ; 双 精 度 〈8 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 double ; 扩展 精度 〈10 字 节 ) 值 。GCC 
用 数据 类 型 long double 来 表示 扩展 精度 的 浮 点 值 。 为 了 提高 存储 器 系统 的 性 能 ， 它 将 这 样 
的 浮 点 数 存 储 成 12 字 节 数 ， 后 面 我 们 会 讨论 这 个 问题 。 用 long double 数据 类 型 (ISO C99 
中 引入 的 ) 使 得 我 们 能 够 使 用 x86 的 扩展 精度 能 力 。 对 大 多 数 (除了 x86 之 外 ) 的 机 器 来 说 ， 这 
种 数据 类 型 和 普通 的 double 数据 类 型 一 样 ， 用 8 个 字 节 的 格式 。 


Intel -0 汇编 代码 后 级 
1 
RR 


图 3 3-1 C 语 言 数 据 类 型 在 IA32 中 的 大 小 。IA32 不 支持 64 位 整数 运算 。 编 译 带 有 
long long 数据 的 代码 ， 需 要 产生 一 些 操 作 序 列 ， 以 32 人 位 块 为 单位 执行 运算 本 


如 图 所 示 ， 大 多 数 GCC 生成 的 汇编 代码 指令 都 有 一 个 字符 后 级 ， 表 明 操 作 数 的 大 小 。 例 
如 ， 数 据 传 送 指令 有 三 个 变种 : movb 〈 传 送 字 节 )、movw (传送 字 ) 和 mov1 (传送 双 字 )。 后 
缀 “1” 用 来 表示 双 字 ， 因 为 将 32 位 数 看 成 是 “长 字 ”(1ong word)， 这 是 由 于 沿用 了 16 位 字 
为 标准 那个 时 代 的 习惯 。 注 意 ， 汇 编 代码 也 使 用 后 级 “1 来 表示 4 字 节 整数 和 8 字 节 双 精 度 浮 
点 数 。 这 不 会 产生 歧义 ， 因 为 浮 点 数 使 用 的 是 一 组 完全 不 同 的 指令 和 寄存 器 。 
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3.4 ”访问 信息 


一 个 IA32 中 央 处 理 单元 (CPU) 包含 一 组 8 个 存储 32 位 值 的 寄存 器 。 这 些 寄存 器 用 来 存 
储 整 数 数据 和 指针 。 图 3-2 显示 了 这 8 个 寄存 器 。 它 们 的 名 字 都 以 se 开头 ， 不 过 它们 都 另 有 特 
殊 的 名 字 。 在 最 初 的 8086 中 ， 寄 存 器 是 16 位 的 ， 每 个 都 有 特殊 的 用 途 。 名 字 的 选择 就 是 用 来 
反映 这 些 不 同 的 用 途 。 在 平坦 寻 址 中 ， 对 特殊 寄存 器 的 需求 已 经 极 大 降低 。 在 大 多 数 情况 ， 前 6 
”个 寄存 器 都 可 以 看 成 通用 寄存 器 ， 对 它们 的 使 用 没有 限制 。 我 们 说 “在 大 多 数 情 况 ”， 是 因为 有 
些 指令 以 固定 的 寄存 器 作为 源 寄 存 器 和 /或 目的 寄存 器 。 另 外 ， 在 过 程 处 理 中 ， 对 前 3 个 寄存 器 
(seax\%ecx 和 seqx) 的 保存 和 恢复 惯例 不 同 于 接 下 来 的 三 个 寄存 器 ($ebx、%edi 和 %esi)。 
我 们 会 在 3.7 节 中 对 此 加 以 讨论 。 最 后 两 个 寄存 器 (sebp 和 sespP) 保存 着 指向 程序 栈 中 重要 
位 置 的 指针 。 只 有 根据 栈 管理 的 标准 惯例 才能 修改 这 两 个 寄存 器 中 的 值 。 


31 15 8 7 0 





图 3-2 IA32 的 整数 寄存 器 。 所 有 8 个 寄存 器 都 可 以 作为 16 位 ( 字 ) 或 32 位 〈 双 字 ) 来 访问 。 
可 以 独立 访问 前 四 个 寄存 器 的 两 个 低位 字 节 


如 图 3-2 所 示 ， 字 节操 作 指 令 可 以 独立 地 读 或 者 写 前 4 个 寄存 器 的 2 个 低位 字 节 。8086 中 
提供 这 样 的 特性 是 为 了 后 向 兼容 8008 和 8080 一 一 两 款 可 以 追溯 到 1974 年 的 微 处 理 器 。 当 一 条 
字 节 指令 更 新 这 些 单字 节 “ 寄 存 器 元 素 ” 中 的 一 个 时 ， 该 寄存 器 余下 的 3 个 字 节 不 会 改变 。 类 似 
地 ， 字 操作 指令 可 以 读 或 者 写 每 个 寄存 器 的 低 16 位 。 这 个 特性 源 自 IA32 从 16 位 微 处 理 器 演化 
而 来 的 这 个 传统 ， 当 对 大 小 指示 符 为 short 的 整数 进行 运算 时 ， 也 会 用 到 这 些 特 性 。 

3.4.1 操作 数 指示 符 
大 多 数 指令 有 一 个 或 多 个 操作 数 〈operand)， 指 示 出 执行 一 个 操作 中 要 引用 的 源 数 据 值 ， 以 
及 放置 结果 的 目标 位 置 。IA32 支持 多 种 操作 数 格式 〈 参 见 图 3-3)。 源 数据 值 可 以 以 常数 形式 给 
出 ， 或 是 从 寄存 器 或 存储 器 中 读 出 。 结 果 可 以 存放 在 寄存 器 或 存储 器 中 。 因 此 ， 各 种 不 同 的 操 
作 数 的 可 能 性 被 分 为 三 种 类 型 。 第 一 种 类 型 是 立即 数 〈immediate)， 也 就 是 常数 值 。 在 AIT 格 
式 的 汇编 代码 中 ， 立 即 数 的 书写 方式 是 “$” 后面 跟 一 个 用 标准 C 表示 法 表示 的 整数 ， 比 如 ， 
$-577 或 $0xlF。 任 何 能 放 进 一 个 32 位 的 字 里 的 数值 都 可 以 用 做 立即 数 ， 不 过 汇编 器 在 可 能 时 
会 使 用 一 个 或 两 个 字 节 的 编码 。 第 二 种 类 型 是 寄存 器 (register)， 它 表示 某 个 寄存 器 的 内 容 ， 对 
双 字 操作 来 说 ， 可 以 是 8 个 32 位 寄存 器 中 的 一 个 (例如 ，%eax)， 对 字 操 作 来 说 ， 可 以 是 8 个 
16 位 寄存 器 中 的 一 个 (例如 ，%ax)， 或 者 对 字 节 操作 来 说 ， 可 以 是 8 个 单字 节 寄 存 器 元 素 中 的 
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一 个 〈 如 sal)。 在 图 3-3 中 ， 我 们 用 符号 Eu 来 表示 任意 寄存 器 a， 用 引用 R[E。] 来 表示 它 的 值 ， 
这 是 将 寄存 器 集合 看 成 一 个 数组 R， 用 寄存 器 标识 符 作 为 索引 。 

第 三 类 操作 数 是 存储 器 (memory) 引用 ， 它 会 根据 计算 出 来 的 地 址 (通常 称 为 有 效 地 址 ) 
访问 某 个 存储 器 位 置 。 因 为 将 存储 器 看 成 一 个 很 大 的 字 节 数组 ， 我 们 用 符号 M[44dr] 表示 对 存 
储 在 存储 器 中 从 地 址 44ddr 开始 的 5 个 字 节 值 的 引用 。 为 了 简便 ， 我 们 通常 省 去 下 方 的 5b。 

如 图 3-3 所 示 ， 有 和 多 种 不 同 的 寻 址 模式 ， 允 许 不 同形 式 的 存储 器 引用 。 表 中 底部 用 语法 
Jmm(E,, E,, s) 表示 的 是 最 常用 的 形式 。 这 样 的 引用 有 四 个 组 成 部 分 : 一 个 立即 数 偏 移 Imm， 一 个 
基 址 寄存 器 也， 一 个 变 址 寄存 器 E, 和 一 个 比例 因子 s， 这 里 s 必须 是 1、2、4 或 者 8。 然后， 有 
效 地 址 被 计算 为 Imm + R[Es] + R[E] * s。 引 用 数组 元 素 时 ， 会 用 到 这 种 通用 形式 。 其 他 形式 都 是 
这 种 通用 形式 的 特殊 情况 ， 只 是 省 略 了 某 些 部 分 。 正 如 我 们 将 看 到 的 ， 当 引用 数组 和 结构 元 素 
时 ， 比 较 复 杂 的 寻 址 模式 是 很 有 用 的 。 















并 | 人 数 信和 
mm 
MLImm+R[E,J+R[E] . s] 





图 3-3 操作 数 格式 。 操 作 数 可 以 表示 立即 数 〈 常 数 ) 值 、 寄 存 器 值 或 是 来 自 存 储 器 的 值 。 
比例 因子 s 必须 是 1、2、4 或 者 8 
镶 红 练习 题 3.1 假设 下 面 的 值 存放 在 指明 的 存储 器 地 址 和 寄存 器 中 : 








填写 下 表 ， 给 出 所 示 操 作 数 的 值 。 


weax 

Ox104 

$0x108 

(Weax) 
|4(%eax) 

9(%eax,%edx) 

260 (%ecx, Wedx) 

OxFC( ,Wecx,4) 

(Weax, edx,4) 





114 芒 一 训 分 程序 结 欧 大雪 疗 


3.4.2 ”数据 传送 指令 

将 数据 从 一 个 位 置 复制 到 另 一 个 位 置 的 指令 是 最 频繁 使 用 的 指令 。 操 作 数 表 示 的 通用 性 使 得 
一 条 简单 的 数据 传送 指令 能 够 完成 在 许多 机 器 中 要 好 几 条 指令 才能 完成 的 功能 。 图 3-4 列 出 的 是 
一 些 重 要 的 数据 传送 指令 。 正 如 看 到 的 那样 ， 我 们 把 许多 不 同 的 指令 分 成 了 指令 类 ， 一 类 中 的 指 
令 执 行 一 样 的 操作 ， 只 不 过 操作 数 的 大 小 不 同 。 例 如 ，MOYV 类 由 三 条 指令 组 成 : movb、movw 
和 mov1。 这 些 指 令 都 执行 同样 的 操作 ; 不 同 的 只 是 它们 分 别 是 在 大 小 为 1、2 和 4 个 字 节 的 数 
据 上 进行 操作 。 


传送 双 字 
S, D DD 一 符号 扩展 (5) 
movsbw 将 做 了 符号 扩展 的 字 节 传送 到 字 
movsbl 将 做 了 符号 扩展 的 字 节 传送 到 双 字 
movswl 将 做 了 符号 扩展 的 字 传 送 到 双 字 


D 一 过 扩展 (8) 


将 做 了 零 扩 展 的 字 节 传送 到 字 | 
movzbl 将 做 了 零 扩 展 的 字 节 传送 到 双 字 


movzwl 将 做 了 零 扩 展 的 字 传 送 到 双 字 
R[%Sesp] 一 RI[%esp]-4; 


pushl 
M[R[%Sesp]] 一 4 
DMI[IRISesp]]; 
PoP 





R[%esp] ~— R[%esp]l]+4 

图 3-4 数据 传送 指令 
MOV 类 中 的 指令 将 源 操作 数 的 值 复制 到 目的 操作 数 中 。 源 操作 数 指定 的 值 是 一 个 立即 
数 ， 存 储 在 寄存 器 中 或 者 存储 器 中 。 目 的 操作 数 指定 一 个 位 置 ， 要 么 是 一 个 寄存 器 ， 要 么 是 一 
个 存储 器 地 址 。IA32 加 了 一 条 限制 ， 传 送 指令 的 两 个 操作 数 不 能 都 指向 存储 器 位 置 。 将 一 个 
值 从 一 个 存储 器 位 置 复制 到 另 一 个 存储 器 位 置 需要 两 条 指令 一 一 第 一 条 指令 将 源 值 加 载 到 寄存 
器 中 ， 第 二 条 将 该 寄存 器 值 写 人 目的 位 置 。 参 考 图 3-2， 这 些 指令 的 寄存 器 操作 数 ， 对 mov1 
来 说 ， 可 以 是 8 个 32 位 寄存 器 ($eax ~ sebp) 中 的 任意 一 个 ， 对 movw 来 说 ， 可 以 是 8 
个 16 位 寄存 器 (sax ~ sbp) 中 的 任意 一 个 ， 而 对 于 movb 来 说 ， 可 以 是 单字 节 寄 存 器 元 素 
($ah ~ %bh，sal ~ sb1) 中 的 任意 一 个 。 下 面 的 MOV 指令 示例 给 出 了 源 类 型 和 目的 类 型 的 

五 种 可 能 的 组 合 。 记 住 ， 第 一 个 是 源 操作 数 ， 第 二 个 是 目的 操作 数 。 





1 movl] $0x4050,%heax Tninediate~-hegister, 4 bytes 
2 movw w%bp,%sp Register~~Register, 2 bytes 
3 movb 〈%edi ,pecxX) ,%ah Memory--Register, 1 byte 
4 movb $-17, (Xesp) Tmmediate-~Memory, 1 byte 
5 movl] heax,-12(%hebp) Register~--Memory, 4 bytes 


MOVS 和 MOVZ 指令 类 都 是 将 一 个 较 小 的 源 数 据 复 制 到 一 个 较 大 的 数据 位 置 ， 高 位 用 符号 
位 扩展 (MOVS) 或 者 零 扩 展 (MOVZ) 进行 填充 。 用 符号 位 扩展 ， 目 的 位 置 的 所 有 高 位 用 源 值 
的 最 高 位 数值 进行 填充 。 用 零 扩 展 ， 所 有 高 位 都 用 零 填 充 。 正 如 看 到 的 那样 ， 这 两 个 类 中 每 个 都 
有 三 条 指令 ， 包 括 了 所 有 的 源 大 小 为 1 个 和 2 个 字 节 、 目 的 大 小 为 2 个 和 4 个 的 情况 (当然 ， 省 
略 了 和 元 余 的 组 合 movsww 和 movzww)。 
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字 节 传送 指令 比较 
仔细 观察 可 以 发 现 ， 三 个 字 节 传送 指令 movb movsb1 和 movzbl 之 间 有 细微 的 差别 。 示 例 : 


Assume initially that %dh = CD, peax = 98765432 


1 movb %dh,%al Yeax = 987654CD 
2 movsbl %dh,%eax Yeax = FFFFFFCD 
3 movzbl] %dh,%eax Yeax = O00000CD 


例子 中 都 是 将 寄存 器 seax 的 低位 字 节 设置 成 $edx 的 第 二 个 字 节 。movb 指令 不 改变 其 他 
三 个 字 节 。 根 据 源 字 节 的 最 高 位 ，movsb1l 指令 将 其 他 三 个 字 节 设 为 全 1 或 全 0。movzbl 指令 
无 论 如 何 都 是 将 其 他 三 个 字 节 设 为 全 0。 


。 最 后 两 个 数据 传送 操作 可 以 将 数据 压 入 程序 栈 中 ， 以 及 从 程序 栈 中 弹出 数据 。 正 如 我 们 将 看 
到 的 ， 栈 在 处 理 过 程 调用 中 起 到 至 关 重要 的 作用 。 栈 是 一 个 数据 结构 ， 可 以 添加 或 者 删除 值 ， 不 
过 要 遵循 “后 进 先 出 ”的 原则 。 通 过 push 操作 把 数据 压 入 栈 中 ， 通 过 pop 操作 删除 数据 ; 它 具 
有 一 个 属性 ; 弹出 的 值 永远 是 最 近 被 压 人 而 仍然 在 栈 中 的 值 。 栈 可 以 实现 为 一 个 数组 ， 总 是 从 数 
组 的 一 端 插入 和 删除 元 素 。 这 一 端 称 为 栈 项 。 在 IA32 中 ， 程 序 栈 存 放 在 存储 器 中 某 个 区 域 。 如 
图 3-5 所 示 ， 栈 向 下 增长 ， 这 样 一 来 ， 栈 项 元 素 的 地 址 是 所 有 栈 中 元 素 地 址 中 最 低 的 。(〈 根 据 惯 
例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 栈 “ 顶 ”在 图 的 底部 。) 栈 指针 $esp 保存 着 栈 顶 元 素 的 地 址 。 


最 初 pushl %eax popl %edx 
二 到 
Wl | eo ew 
栈 “ 底 ” 栈 “ 展 





图 3-5 栈 操作 说 明 。 根 据 惯 例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 因 而 栈 “ 项 ”在 底部 。IA32 的 栈 向 低地 址 
方向 增长 ， 所 以 压 本 是 减 小 栈 指针 《寄存 器 sesp) 的 值 ， 并 将 数据 存放 到 存储 器 中 ， 而 出 本 
是 从 存储 器 中 读 ， 并 增加 栈 指针 的 什 


pushl 指令 的 功能 是 把 数据 压 人 到 栈 上 ， 而 pop1l 指令 是 弹出 数据 。 这 些 指令 都 只 有 一 个 
操作 数 一 一 压 人 的 数据 源 和 弹出 的 数据 目的 。 z z 

将 一 个 双 字 值 压 人 栈 中 ， 首 先 要 将 栈 指针 减 4， 然 后 将 值 写 到 新 的 栈 顶 地 址 。 因 此 ， 指 令 
pushl sebp 的 行为 等 价 于 以 下 两 条 指令 : ， 


subl $4,%hesp . | Decrement stack pointer 
movl] %ebp, (hesp) Store Yebp on stack 


它们 之 间 的 区 别 是 在 目标 代码 中 pushl 指令 编码 为 1 个 字 节 ， 而 上 面 两 条 指令 一 共 需 要 6 个 字 
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节 。 图 3-5 中 前 两 栏 所 示 的 是 ， 当 $esp 为 0x108，S%eax 为 0x123 时 ， 执 行 指令 pushl seax 
的 效果 。 首 先 sesp 会 减 4， 得 到 0x104， 然 后 会 将 0x123 存放 到 存储 器 地 址 0x104 处 。 

弹出 一 个 双 字 的 操作 包括 从 栈 顶 位 置 读 出 数据 ， 然 后 将 栈 指针 加 4。 因 此， 指令 popl 
seax 等 价 于 以 下 这 两 条 指令 : 

moV1 (%esp) ,heax Read Yeax from stack 

add] $4,%esp Increment stack pointer 

图 3-5 的 第 三 栏 说 明 的 是 在 执行 完 pushl 后 立即 执行 指令 popl s%edx 的 效果 。 先 从 存储 
器 中 读 出 值 0x123， 再 写 到 寄存 器 $edx 中 ， 然 后 ， 寄 存 器 sesp 的 值 将 增加 回 到 0x108。 如 
图 所 示 ， 值 0x123 仍然 会 保持 在 存储 器 位 置 0x104 中 ， 直 到 被 覆盖 《例如 被 另 一 条 入 栈 操作 覆 
益 )。 无 论 如 何 ，%esp 指向 的 地 址 总 是 栈 项 。 任 何 存 储 在 栈 项 之 外 的 数据 都 被 认为 是 无 效 的 。 

因为 栈 和 程序 代码 以 及 其 他 形式 的 程序 数据 都 是 放 在 同样 的 存储 器 中 ， 所 以 程序 可 以 用 标 
准 的 存储 器 寻 址 方法 访问 栈 内 任意 位 置 。 例 如 ， 假 设 栈 顶 元 素 是 双 字 ， 指 令 movl 4 (%esp)， 
sedx 会 将 第 二 个 双 字 从 栈 中 复制 到 寄存 器 sedx。 
医 弹 练习 题 3.2 对 于 下 面 汇编 代码 的 每 一 行 ， 根 据 操作 数 ， 确 定 适当 的 指令 后 级 。( 例 如 ，mov 可 以 被 重 

写成 movb、movw 或 者 movl。) 





mov  %eax, (%esp) 





1 
2 mov (Xeax), %dx 
3 mov  $OxFF, %bl 
4 mov (esp,hedx,4), %dh 
5 push $0OxFF 
6 mov  %dx, (%eax) 
7 pop %edi . | 
家 二 | 练习 题 3.3 当 我 们 调用 汇编 器 的 时 候 ， 下 面 代码 的 每 一 行 都 会 产生 一 个 错误 消息 。 解 释 每 一 行 都 是 
里 出 了 错 。 : 


1 movb $OxF ，(%b1) 
2 movl] %ax, (%esp) 

3 movw (%eax) ,4(%hesp) 
4 movb %ah,%sh 

5 movl] %eax ,$0Ox123 

6 movl1 %eax,%dx 

7 movb hsi, 8(%ebp) 


3.4.3 ”数据 传送 示例 。 

作为 一 个 使 用 数据 传送 指令 的 代码 示例 ， 考 虑 图 3-6 中 所 示 的 数据 交换 函数 ， 既 有 C 代码 ， 
也 有 GCC 产生 的 汇编 代码 。 我 们 省 略 了 一 部 分 汇编 代码 ， 这 些 代码 用 来 在 程序 人 口 处 为 运行 时 
栈 分 配 空间 ， 以 及 在 过 程 返回 前 回收 栈 空间 的 代码 。 当 我 们 讨论 过 程 链接 时 ， 会 讲 到 这 种 建立 和 
完成 代码 的 细节 。 除 此 之 外 剩 下 的 代码 ， 我 们 称 之 为 “过 程 体 ”(body)。 


int exchange(int *xp, int y) 


{ 


Xp at Webp+8, y at %ebp+12 
mov1 8(Xebp), Wedx Get xp 


int x = *xp; By copying to %eax below, x becomes the return value 


movl (Yedx) ，Y%eax Get x at xp 
movl 12(%ebp), hecx Gety 
movl hecx, (%edx) Store 了 at xp 


*xp = y; 
return xXx; 





a) C 语言 代码 b) 汇编 代码 
图 3-6_ exchange 函数 体 的 C 语言 和 汇编 代码 。 省 略 了 栈 的 建立 和 完成 部 分 
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给 C 语言 初学 者 : 一 些 指针 的 示例 有 

函数 exchange (图 3-6) 提供 了 一 个 关于 C 语言 中 指针 使 用 的 很 好 说 明 。 参 数 xp 是 一 个 
指向 整数 的 指针 ， 而 YY 是 一 个 整数 。 语 外 

int x = *xp; 
表示 我 们 将 读 存 储 在 xp 所 指 位 置 中 的 值 ， 并 将 它 存 放 到 名 字 为 x 的 局 部 变量 中 。 这 个 读 操作 称 
为 指针 的 间接 引用 (dereferencing)，C 操作 符 * 执行 指针 的 间接 引用 。 





语 向 
Sp Sy 
正好 相反 一 一 各 将 参数 y 的 值 写 到 xp 所 指 的 位 置 。 这 也 是 一 种 指针 间接 引用 的 形式 《所 以 有 操 


作 符 *)， 但 是 它 表 明 的 是 一 个 写 操 作 ， 因 为 它 是 在 冉 值 语句 的 左边 。 
下 面 是 一 个 调用 exchange 的 实际 例子 : z 
int a = 4， 


int b = exchange (&a, 3); 
printf("a = %d, b = $d\n", a, b); 


这 段 代码 会 打印 出 : 
a= 3, b= 4 


C 操作 符 &〈 称 为 “ 取 址 ”操作 符 ) 创建 一 个 指针 ， 在 本 例 中 ， 该 指针 指向 保存 局 部 变量 a 的 位 
置 。 然 后 ， 函 数 exchange 将 用 3 履 盖 存储 在 a 中 的 值 ， 但 是 返回 4 作为 函数 的 值 。 注 意 如 何 
将 指针 传递 给 exchange， 它 能 修改 存在 某 个 远 处 位 置 的 数据 。 


当 过 程 体 开始 执行 时 ， 过 程 参数 xp 和 y 存储 在 相对 于 寄存 器 $ebp 中 地 址 值 偏 移 8 和 12 
的 地 方 。 指 令 1 和 2 从 存储 器 当中 读 出 参数 xp， 把 它 存 放 到 寄存 器 sedqx 中 。 指 令 2 使 用 寄 
存 器 sedqx， 并 将 x 读 到 寄存 器 seax 中 ， 直 接 实 现 了 C 程序 中 的 操作 x=*xp。 稍 后 ， 用 寄存 
器 seax 从 这 个 函数 返回 一 个 值 ， 因 而 返回 值 就 是 x。 指 令 3 将 参数 y 加 载 到 寄存 器 secx。 然 
后 ， 指 令 4 将 这 个 值 写 人 到 寄存 器 $edx 中 的 xp 指向 的 存储 器 位 置 ， 直 接 实现 了 操作 *xp=y。 
这 个 例子 说 明了 如 何 用 MOYV 指令 从 存储 器 中 读 值 到 寄存 器 (指令 1 ~ 3)， 如 何 从 寄存 器 写 到 
存储 器 (指令 4)。 

关于 这 段 汇编 代码 有 两 点 值得 注意 。 首 先 ， 我 们 看 到 C 语言 中 所 谓 的 “指针 ”其 实 就 是 地 
址 。 间 接 引 用 指针 就 是 将 该 指针 放 在 一 个 寄存 器 中 ， 然 后 在 存储 器 引用 中 使 用 这 个 寄存 器 。 其 
次 ， 像 x 这 样 的 局 部 变量 通常 是 保存 在 寄存 器 中 ， 而 不 是 存储 器 中 。 寄 存 器 访问 比 存储 器 访问 
要 快 得 多 。 a 
区 弹 练习 题 3.4 假设 变量 v 和 p 被 声明 为 类 型 





src_t vy,; 
dest_t *p; 


这 里 src_t 和 dest_t 是 用 typedef 声明 的 数据 类 型 。 我 们 想 使 用 适当 的 数据 传送 指令 来 实现 下 面 
的 操作 


*p = (dest_t) vy; 


此 处 ，v 存储 在 寄存 器 %eax 适当 命名 的 部 分 中 (也 就 是 $eax、%ax 或 $al)， 而 指针 p 存储 在 寄存 
器 $edx 中 。 ; 
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对 于 下 列 src_t 和 dest t 的 组 合 ， 写 一 行 汇编 代码 进行 适当 的 数据 传送 。 记 住 ， 在 C 语言 
中 ， 当 执行 既 涉 及 大 小 变化 又 涉及 符号 改变 的 强制 类 型 转换 时 ， 操 作 应 该 先 改变 符号 (参见 
2.2.6 节 )。 


char 

char unsigned 
unsigned char int 

int char 


unsigned unsigned char 





unsigned int 





练习 题 3.5 已 知 信息 如 下 。 将 一 个 原型 为 


void decodel(int *xp, int *yp, int *zp); 
的 函数 编译 成 汇编 代码 。 代 码 体 如 下 : 


XP at Webp+8, yp at %ebp+12, zp at hebp+16 


1 movl 8(hebp) , hedi 

2 movl 12(%ebp) , hedx 

3 movl 16(%ebp) , hecx 

4 movil (Xedx) ，%ebx 

5 mov]l (Xecx) ,Wesi 

6 movl (Wedi), %eax 
7 movl Yeax, (Wedx) 

8 movl Webx, (Wecx) 

9 movl Wesi, (%edi) 


参数 xp、yp 和 zp 分 别 存储 在 相对 于 寄存 器 $ebp ee 8、 了 2 和 16 的 地 方 。 
请 写 出 与 以 上 汇编 代码 的 decodel 等 效 的 C 代码 。 


3.5 ”算术 和 人 逻辑 操作 


图 3-7 列 出 了 一 些 整数 和 逻辑 操作 。 大 多 数 操作 都 分 成 了 指令 类 ， 这 些 指令 类 有 各 种 带 不 同 
大 小 操作 数 的 变种 。( 只 有 leal 没有 其 他 大 小 的 变种 。) 例如 ， 指 令 类 ADD 由 三 条 加 法 指令 组 
成 : addb、addw 和 addl， 分别 是 字 节 加 法 、 字 加 法 和 双 字 加 法 。 事 实 上 ， 给 出 的 每 个 指令 类 
都 有 对 字 节 、 字 和 双 字 数据 进行 操作 的 指令 。 这 些 操作 被 分 为 四 组 : 加 载 有 效 地 址 、 一 元 操作 、 
二 元 操作 和 移 位 。 二 元 操作 有 两 个 操作 数 ， 而 一 元 操作 有 一 个 操作 数 。 这 些 操 作 数 的 描述 方法 与 
3.4 节 中 所 讲 的 一 样 。 
3.5.1 加载 有 效 地 址 

加 载 有 效 地 址 (load effective address) 指令 leal 实际 上 是 mov1l 指令 的 变形 。 它 的 指令 形 
式 是 从 存储 器 读数 据 到 寄存 器 ， 但 实际 上 它 根本 就 没有 引用 存储 器 。 它 的 第 一 个 操作 数 看 上 去 是 
一 个 存储 器 引用 ， 但 该 指令 并 不 是 从 指定 的 位 置 读 人 数据 ， 而 是 将 有 效 地 址 写 人 到 目的 操作 数 。 
在 图 3-7 中 我 们 用 C 语言 的 地 址 操作 符 &S 说 明 这 种 计算 。 这 条 指令 可 以 为 后 面 的 存储 器 引用 产 
生 指 针 。 另 外 ， 它 还 可 以 简洁 地 描述 普通 的 算术 操作 。 例 如 ， 如 果 寄 存 器 $edx 的 值 为 zx， 那么 
指令 leal 7 (%sedx, sedx, 4) ，%eax 将 设置 寄存 器 seax 的 值 为 5x +7。 编 译 器 经 常 发 现 一 些 
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leal 的 灵活 用 法 ， 根 本 与 有 效 地 址 计算 无 关 。 目 的 操作 数 必须 是 一 个 寄存 器 。 


D < D<<k 

D<-D<<k 左 移 (等同 于 SAL ) 
D < D>>，k | 算术 右 移 

D -D>>rk | 逻辑 右 移 


图 3-7 整数 算术 操作 。 加 载 有 效 地 址 (leal) 指令 通常 用 来 执行 简单 的 算术 操作 。 其 余 的 指令 
非常 标准 的 一 元 或 二 元 操作 。 我 们 用 >>, 和 >> 来 分 别 表示 算术 右 移 和 逮 辑 右 移 。 注意 ， 
这 里 的 操作 数 顺序 与 ATT 格式 的 汇编 代码 中 的 相反 








E 一 练习 题 3.6 ”假设 寄存 器 seax 的 值 为 x，%ecx 的 值 为 y。 黄 写 下 表 ， 指 明 下 面 每 条 汇编 代码 指令 存 
储 在 寄存 器 $edx 中 的 值 : J z 


指 仿 
leal 6{(%eax), Sedx 


leal (%eax, Secx) ,Sedx 


leal (Seax,%Secx,4),$Sedx 


leal 7(%eax, Seax,8),%Sedx 


leal OxA(, Seax, 4), Sedx 


leal 9(%eax, Secx,2),%$Sedx 





3.5.2 一 元 操作 和 二 元 操作 

第 二 组 中 的 操作 是 一 元 操作 ， 它 只 有 一 个 操作 数 ， 既 是 源 又 是 目的 。 这 个 操作 数 可 以 是 一 
个 寄存 器 ， 也 可 以 是 一 个 存储 器 位 置 。 比 如 说 ， 指 令 incl ($esp) 会 使 栈 顶 的 4 字 节 元 素 加 1。 
这 种 语法 让 人 想起 C 语言 中 的 加 1 运算 符 〈++) 和 减 1 运算 法 (一 一 )。 

第 三 组 是 二 元 操作 ， 其 中 ， 第 二 个 操作 数 既 是 源 又 是 目的 。 这 种 语法 让 人 想起 C 语言 
的 赋值 运算 符 ， 例 如 x+=y。 不 过 ， 要 注意 ， 源 操作 数 是 第 一 个 ， 目 的 操作 数 是 第 二 个 ， 对 于 
不 可 交换 操作 来 说 ， 这 看 上 去 很 奇特 。 例 如 ， 指 令 sub1 seax，s#eqdx 使 寄存 器 $edx 的 值 减 
去 seax 中 的 值 。( 将 指令 解读 成 “从 sedx 中 减 去 $eax” 会 有 所 帮助 .〉 第 一 个 操作 数 可 以 是 
立即 数 、 寄 存 器 或 是 存储 器 位 置 。 第 二 个 操作 数 可 以 是 寄存 器 或 是 存储 器 位 置 。 不 过 ， 同 mov1l 
指令 一 样 ， 两 个 操作 数 不 能 同时 是 存储 器 位 置 。 
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Weax Ox100 






鞭 写 下 表 ， 给 出 下 面 指 令 的 效果 ， 说 明 将 被 更 新 的 寄存 器 或 存储 器 位 置 ， 以 及 得 到 的 值 。 


aadlyecx(ea | | | 
subl%edx,4(eax) | | 
imull $16, (eax, hedx ,4) Dt 
网 的 
ls 
| 









incl 8(W%eax) 


subl hedx ,heax 


3.5.3” 移 位 操作 

最 后 一 组 是 移 位 操作 ， 先 给 出 移 位 量 ， 然 后 第 二 项 给 出 的 是 要 移 位 的 位 数 。 它 可 以 进行 算术 
和 多 辑 右 移 。 移 位 量 用 单个 字 节 编码 ， 因 为 只 允许 进行 0 到 31 位 的 移 位 〈 只 考虑 移 位 量 的 低 $ 
位 )。 移 位 量 可 以 是 一 个 立即 数 ， 或 者 放 在 单字 节 寄 存 器 元 素 $cl 中 。( 这 些 指令 很 特别 ， 因 为 
只 允许 以 这 个 特定 的 寄存 器 作为 操作 数 。) 如 图 3-7 所 示 ， 左 移 指 令 有 两 个 名 字 : SAL 和 SHL。 
两 者 的 效果 是 一 样 的 ， 都 是 将 右边 填 上 0。 右 移 指令 不 同 ，SAR 执行 算术 移 位 〈 填 上 符号 位 )， 
而 SHR 执行 逻辑 移 位 〈 填 上 0)。 移 位 操作 的 目的 操作 数 可 以 是 一 个 寄存 器 或 是 一 个 存储 器 位 
置 。 图 3-7 中 用 >>、( 算 术 ) 和 >>, (逻辑 ) 来 表示 这 两 种 不 同 的 右 移 运算 。 
| 练习 题 3.8 假设 我 们 想 生 成 以 下 C 函数 的 汇编 代码 : 





int Shift_left2_rightn(int x, int 卫 ) 
{ 

xX <<= 2; 

X >>= 1; 

return XxX; 


} 


下 面 这 段 汇编 代码 执行 实际 的 移 位 ， 并 将 最 后 的 结果 放 在 寄存 器 seax 中 。 此 处 省 略 了 两 条 关键 的 指 
令 。 参 数 x 和 mn 分 别 存放 在 存储 器 中 相对 于 寄存 器 sebp 中 地 址 偏 移 8 和 12 的 地 方 。 
mov]l 8(%ebp) , Wheax Get x 


1 
3 movl 12(%ebp), %ecx Get n 
4 xX >>= Dn 


根据 右边 的 注释 ， 填 出 缺失 的 指令 。 请 使 用 算术 右 移 操作 。 
3.5.4 讨论 

我 们 看 到 图 3-7 所 示 的 大 多 数 指令 ， 既 可 以 用 于 无 符号 运算 ， 也 可 以 用 于 补 码 运算 。 只 有 右 
移 操作 要 求 区 分 有 符号 和 无 符号 操作 数 。 这 个 特性 使 得 补 码 运 算 成 为 实现 有 符号 整数 运算 的 一 种 
比较 好 的 方法 。 

3-8 给 出 了 一 个 执行 算术 操作 的 函数 示例 ， 以 及 它 的 汇编 代码 。 和 前 面 一 样 ， 我 们 省 略 了 
栈 的 建立 和 完成 部 分 。 函 数 参 数 x、y 和 z 分 别 存 放 在 存储 器 中 相对 于 寄存 器 sebp 中 地 址 偏 移 
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8、12 和 16 的 地 方 。 


int arith(int x, 





int y, 
int 2z) X at Webp+8, y at Webp+12, z at Xebp+16 
movl 16(%ebp), heax z 
int t1 = x+y; leal (eax,%eax,2), heax zx*3 
int t2 = z*48,; sall $4, heax t2 = Zz*48 
int t3 = tl & OxFFFF,; mov]l 12(hebp) , %edx y 
int t4 = t2 * t3; addl 8(%ebp), %edx t1 = x+y 
return t4; andl $65535, %edx t3 = t1&0xFFFF 
imull %edx, heax Return t4 = t2*t3 
a) C 语言 代码 b) 汇编 代码 


3-8 ”算术 运算 函数 体 的 C 语言 和 汇编 代码 。 省 略 了 栈 的 建立 和 完成 部 分 


汇编 代码 指令 与 C 语言 源 代码 中 的 顺序 不 同 。 指 令 2 和 3 用 leal 和 移 位 指令 的 组 合 来 实 
现 表达 式 z*48。 第 5 行 计 算 x+y 的 值 。 第 6 行 计 算 t1 和 0xFFFF 的 AND 值 。 指 令 7 执行 最 
后 的 乘法 。 由 于 乘法 的 目的 寄存 器 是 seax， 函 数 会 返回 这 个 值 。 

图 3-8 的 汇编 代码 中 ， 寄 存 器 $eax 中 的 值 先 后 对 应 于 程序 值 z>、3*z、z*48 和 t+4〔 作 为 
返回 值 )。 通 常 ， 编 译 器 产生 的 代码 中 ， 会 用 一 个 寄存 器 存放 多 个 程序 值 ， 还 会 在 寄存 器 之 间 传 


送 程序 值 。 
攻 对 练习 题 3.9 图 3-8a 中 函数 有 以 下 变种 ， 有 些 表达 式 用 空格 替代 : 





int arith(int x, 


1 

2 int y, 

3 int 2z) 

4 攻 

5 int 上 tl = p 
6 int t2 = 有 
7 int t3 = ; 
8 int t4 = 
9 return t4; 

10  】 


实现 这 些 表达 式 对 应 的 汇编 代码 如 下 : 


X at Webp+8, y at %ebp+12, 2 at Webp+16 
movl 12(%ebp) ，%eax 


xorl 8(%ebp) ，%eax 
sarl $3, heax 
notl Yeax 


Ww NN 一 


subl 16(%ebp) , %eax 


基于 这 些 汇编 代码 ， 填 写 C 语言 代码 中 缺失 的 部 分 。 
用 J 练 习题 3.10 常常 可 以 看 见 以 下 形式 的 汇编 代码 行 : 





Xor] edx ,Yedx 


但 是 在 产生 这 段 汇编 代码 的 C 代码 中 ， 并 没有 出 现 EXCLUSIVE-OR 操作 。 
A. 解释 这 条 特殊 的 EXCLUSIVE-OR 指令 的 效果 ， 它 实现 了 什么 有 用 的 操作 。 
B. 更 直接 表达 这 个 操作 的 汇编 代码 是 什么 ? 

C. 比较 一 下 同样 一 个 操作 的 两 种 不 同 实现 的 编码 字 节 长 度 。 
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3.5.5 ”特殊 的 算术 操作 
图 3-9 描述 的 指令 支持 产生 两 个 32 位 数字 的 全 64 位 乘积 以 及 整数 除法 。 


imull S$ | RI%edxjR[%eax] < S x R[%eax] 有 符号 全 64 位 乘法 
mull S$ | RI%edxj:R[%eax| < S x.R[%eax] 无 符号 全 64 位 乘法 


R[%edx]R[Xeax] < SignExtend(R[Yeax]) 
R[%edx] < R[%edx]:R[%eax]mod 5; 有 符号 除法 - 
六 


R[%eax] < R[%edxj:R[%eax] :5 
divl R[%edx] <— R[%edx]:R[%eax] mod 5; 无 符号 除法 
R[%eax] < R[%edx]:R[%eax] = 5 
图 3-9 特殊 的 算术 操作 。 这 些 操 作 提 供 了 有 符号 和 无 符号 数 的 全 64 位 乘法 和 除法 。 
一 对 寄存 器 sedx 和 $eax 组 成 一 个 64 位 的 四 字 z 


图 3-7 中 列 出 的 imull 指令 称 为 “ 双 操 作 数 ”乘法 指令 。 它 从 两 个 32 位 操作 数 产 生 一 个 
32 位 乘积 ， 实现 了 2.3.4 节 和 2.3.5 节 中 描述 的 操作 * 2 和 * 2%。 :回想 一 下 ， 将 乘积 截取 为 32 位 
时 ， 无 符号 乘 和 补 码 乘 的 位 级 行为 是 一 样 的 。IA32 还 提供 了 两 个 不 同 的“ 单 操作 数 ” 乘 法 指令 ， 
以 计算 两 个 32 位 值 的 全 64 位 乘积 一 一 一 个 是 无 符号 数 乘法 (mull)， 而 另 一 个 是 补 码 乘 法 
(imul1)。 这 两 条 指令 都 要 求 一 个 参数 必须 在 寄存 器 seax 中 ， 而 另 一 个 作为 指令 的 源 操作 数 给 
出 。 然 后 乘积 存放 在 寄存 器 sedx (高 32 位 ) 和 seax ( 低 32 位 ) 中 。 虽 然 imull 这 个 名 字 可 
以 用 于 两 个 不 同 的 乘法 操作 ， 但 是 汇编 器 能 够 通过 计算 操作 数 的 数目 ， 分 辨 出 想 用 哪 条 指令 。 

举 个 例子 ， 假 设 有 符号 数 x 和 Y 存储 在 相对 于 sebp 偏 移 量 为 8 和 12 的 位 置 ， 我 们 希望 将 
它们 的 全 64 位 乘积 作为 8 个 字 节 存放 在 栈 顶 。 代 码 如 下 : | z 
























X at Webp+8, y at %ebp+12 


1 movl i2(%ebp), heax Put y in heax 

2 imul1 8(%ebp) Multiply by x 

2 movil %eax, (hesp) Store low-order .3J2 bits 
4 movil hedx, 4(%esp) Store high-order 32 bits 


可 以 观察 到 ， 存 储 两 个 寄存 器 的 位 置 对 小 端 法 机 器 来 说 是 对 的 一 一 寄存 器 $edx 中 的 高 位 存 
放 在 相对 于 seax 中 的 低位 偏 移 量 为 4 的 地 方 。 栈 是 向 低地 址 方向 增长 的 ， 也 就 是 说 低位 在 栈 顶 。 

我 们 前 面 的 算术 运算 表 (图 3-7) 没有 列 出 除法 或 模 操 作 。 这 些 操作 由 类 似 于 单 操作 数 乘法 
指令 的 单 操作 数 除法 指令 提供 。 有 符号 除法 指令 idiv1 将 寄存 器 sedx (高 32 位 ) 和 #eax ( 低 
32 位 ) 中 的 64 位 数 作为 被 除数 ， 而 除数 作为 指令 的 操作 数 给 出 。 指 令 将 商 存储 在 寄存 器 $eax 
中 ， 将 余数 存储 在 寄存 器 $edx 中 。 

举 个 例子 ， 假 设 有 符号 数 x 和 y 存储 在 相对 于 sebp 偏 移 量 为 8 和 12 的 位 置 ， 我 们 想 要 将 
x/y 和 xsy 存储 到 栈 中 。GCC 产生 的 代码 如 下 : RS 


xX at Aebp+8, y at hebp+12 
movl 8(hebp), %edx Put x in %edx 


] 

2 movil Xedx, %eax Copy X to Weax 

3 sarl $31, %edx Sign extend x In Wedx 
4 idivl 12(hebp) Divide by 了 

5 movl heax, 4(hesp) Store x/y 

6 movl hedx, (%esp) Store xX%y 
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第 1 行 的 传送 指令 和 第 3 行 的 算术 移 位 指令 联合 起 来 的 效果 ， 就 是 根据 x 的 符号 将 寄存 
器 $edx 设置 为 全 零 或 者 全 一 ; 而 第 2 行 的 传送 指令 将 x 复制 到 seax。 因 此 ， 我 们 有 了 将 寄存 
器 sedx 和 seax 联合 起 来 存放 x 的 64 位 符号 扩展 的 版 本 。 在 idivl 指令 之 后 ， 商 和 余数 被 复 
制 到 栈 顶 的 两 个 位 置 (指令 5 和 6)。 

设置 除数 更 常规 的 方法 是 使 用 cltd9 指 令 。 这 条 指令 将 seax 符号 扩展 到 sedx。 使 用 这 
条 指令 ， 上 面 所 示 的 代码 序列 变 成 了 以 下 形式 : 


X at Wabp+8, y at Hebp+12 


1 moV1] 8(%ebp) ,%eax Load x into Weax 

2 cltd Sign extend into %edx 
3 idivl 12(%ebp) Divide by y 

4 movl heax, 4(hesp) Store x / ?了 

5 movl hedx, (%esp) Store X 党 了 


我 们 可 以 看 到 ， 这 里 的 前 两 条 指令 与 前 面 代码 序列 中 的 前 三 条 指令 有 一 样 的 整体 效果 。 不 同 
的 GCC 版 本 会 产生 这 两 种 不 同 的 方式 来 设置 整数 除法 的 被 除数 。 

无 符号 除法 使 用 的 是 div1 指令 。 通 常会 事先 将 寄存 器 $edx 设置 为 0。 
SN 练习 题 3.11 修改 有 符号 除法 的 汇编 代码 ， 使 它 计 算数 x 和 y 的 无 符号 商 和 余数 ， 并 将 结果 存放 在 栈 上 。 
性 练习 题 3.12 ”考虑 下 面 的 C 函数 原型 ， 其 中 ，num t 是 用 typedef 声明 的 数据 类 型 。 


void store_prod(num_t *dest, unsigned x, num_t y) 荆 
*dest = x*y; 





} 
GCC 产生 以 下 汇编 代码 来 实现 计算 的 主体 : 


dest at hebp+3,， x at %ebp+12, y at Xebpri6 
movl 12(%ebp), %eax 
movl .20(%hebp), %ecx 
imull %eax, %ecx 
mull 16(%ebp) 
leal (Wecx, Xedx) , Wedx 
movl 8(hebp) , hecx 
movl %eax, (Wecx) 
moV] Xedx ，4(%ecx) 


可 以 看 到 ， 这 段 代码 需要 读 两 次 内 存 来 取 参 数 y (第 2 行 和 第 4 行 )， 两 个 乘法 (第 3 行 和 第 4 行 )， 
以 及 两 次 内 存 写 来 存储 结果 (第 7 行 和 第 8 行 )。 / 

A.num t 是 什么 数据 类 型 的 ? 

B. 描述 用 来 计算 乘积 的 算法 ， 并 证 明 它 是 正确 的 。 


3.6 控制 


到 目前 为 止 ， 我们 只 考虑 了 直线 代码 的 行为 ， 也 就 是 指令 一 条 接着 一 条 顺序 地 执行 。C 语言 
中 的 某 些 结构 ， 比 如 条 件 语句 、 循 环 语句 和 分 支 语 句 ， 要 求 有 条 件 的 执行 ， 根 据 数 据 测试 的 结果 
来 决定 操作 执行 的 顺序 。 机 器 代码 提供 两 种 基本 的 低级 机 制 来 实现 有 条 件 的 行为 : 测试 数据 值 ， 
然后 根据 测试 的 结果 来 改变 控制 流 或 者 数据 流 。 

数据 相关 的 控制 流 是 实现 有 条 件 行为 的 更 通用 和 更 常见 的 方法 ， 所 以 我 们 先 来 介绍 它 。 通 
常 ，C 语言 中 的 语句 和 机 器 代码 中 的 指令 都 是 按照 它们 在 程序 中 出 现 的 次 序 ， 顺 序 执行 的 。 用 


ON 个 一 


日 在 Intel 的 文档 里 ， 这 条 指令 称 为 cdq。 这 是 指令 的 ATT 格式 名 字 与 Intel 名 字 无 关 的 少数 情况 之 一 。 


对 
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jump 指令 可 以 改变 一 组 机 器 代码 指令 的 执行 顺序 ，jump 指令 指定 控制 应 该 被 传递 到 程序 的 哪个 
其 他 部 分 ， 可 能 是 依赖 于 某 个 测试 的 结果 。 编 译 器 必须 产生 指令 序列 ， 这 些 指令 序列 构建 在 这 种 
实现 C 语言 控制 结构 的 低级 机 制 之 上 。 

本 文 会 先 涉及 机 器 级 机 制 ， 然 后 说 明 如 何 用 它们 来 实现 C 语言 的 各 种 控制 结构 。 之 后 ， 我 
们 会 回来 介绍 使 用 有 条 件 的 数据 传输 来 实现 与 数据 相关 的 行为 。 : 
3.6.1 条 件 码 z 

除了 整数 寄存 器 ，CPU 还 维护 着 一 组 单个 位 的 条 件 码 (condition code) 寄存 器 ， 它 们 描 
述 了 最 近 的 算术 或 逻辑 操作 的 属性 。 可 以 检测 这 些 寄存 器 来 执行 条 件 分 支 指令 。 最 常用 的 条 
件 码 有 : 

CF : 进位 标志 。 最 近 的 操作 使 最 高 位 产生 了 进位 。 可 以 用 来 检查 无 符号 操作 数 的 溢出 。 

ZF : 零 标 志 。 最 近 的 操作 得 出 的 结果 为 0。 

SF : 符号 标志 。 最 近 的 操作 得 到 的 结果 为 负数 。 

OF : 洲 出 标志 。 最 近 的 操作 导致 一 个 补 码 洲 出 一 一 正 淤 出 或 负 洲 出 。 

比如 说 ， 假 设 我 们 用 一 条 ADD 指令 完成 等 价 于 C 表达 式 t=atb 的 功能 ， 这 里 变量 a、b 和 
t 都 是 整 型 的 。 然 后 ， 根 据 下 面 的 C 表达 式 来 设置 条 件 码 : > 


CF: (unsigned) t <(unsigned) a 无 符号 溢出 
ZF : (的 替 

SF: (t < 0) 负数 

OF : (a<0==b<0) g&& (t<0 !=a< 0) 有 符号 溢出 


leal 指令 不 改变 任何 条 件 码 ， 因 为 它 是 用 来 进行 地 址 计算 的 。 除 此 之 外 ， 图 3-7 中 列 出 的 
所 有 指令 都 会 设置 条 件 码 。 对 于 逻辑 操作 ， 例 如 XOR， 进 位 标志 和 溢出 标志 会 设置 成 0。 对 于 
移 位 操作 ， 进 位 标志 将 设置 为 最 后 一 个 被 移出 的 位 ， 而 溢出 标志 设置 为 0。INC 和 DEC 指令 会 
设置 溢出 和 零 标 志 ， 但 是 不 会 改变 进位 标志 ， 至 于 原因 ， 我 们 就 不 在 这 里 深入 探讨 了 。 

除了 图 3-7 中 的 指令 会 设置 条 件 码 ， 有 两 类 指令 (有 8、16 和 32 位 形式 )， 它 们 只 设置 条 
件 码 而 不 改变 任何 其 他 寄存 器 ; 如 图 3-10 所 示 。CMP 指令 根据 它们 的 两 个 操作 数 之 差 来 设置 条 
件 码 。 除 了 只 设置 条 件 码 而 不 更 新 目标 寄存 器 之 外 ，CMP 指令 与 SUB 指令 的 行为 是 一 样 的 。 在 
AIT 格式 中 ， 列 出 操作 数 的 顺序 是 相反 的 ， 这 使 代码 有 点 难 读 。 如 果 两 个 操作 数 相 等 ， 这 些 指 
令 会 将 零 标 志 设 置 为 1， 而 其 他 的 标志 可 以 用 来 确定 两 个 操作 数 之 间 的 大 小 关系 。TEST 指令 的 
行为 与 AND 指令 一 样 ， 除 了 它们 只 设置 条 件 码 而 改变 目的 寄存 器 的 值 。 典 型 的 用 法 是 ， 两 个 操 
作 数 是 一 样 的 (例如 ，testl seax, $eax 用 来 检查 seax 是 负数 、 零 ， 还 是 正 数 )， 或 其 中 的 
一 个 操作 数 是 一 个 掩 码 ， 用 来 指示 哪些 位 应 该 被 测试 。 


cmpb Compare byte 
| cmpw Compare word 
cmpl Compare double word 












testb Test byte 
testw Test word 
testl Test double word 


图 3-10 ”比较 和 测试 指令 。 这 些 指令 不 修改 任何 寄存 器 的 值 ， 只 设置 条 件 码 
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3.6.2 ”访问 条 件 码 

条 件 码 通 常 不 会 直接 读 取 ， 常 用 的 使 用 方法 有 三 种 : 1) 可 以 根据 条 件 码 的 某 个 组 合 ， 将 
一 个 字 节 设置 为 0 或 者 1 ; 2) 可 以 条 件 跳 转 到 程序 的 某 个 其 他 的 部 分 ; 3) 可 以 有 条 件 地 传送 
数据 。 对 于 第 一 种 情况 ， 图 3-11 中 描述 的 指令 根据 条 件 码 的 某 个 组 合 ， 将 一 个 字 节 设置 为 0 
或 者 1。 我 们 将 这 一 整 类 指令 称 为 SET 指令 ; 它们 之 间 的 区 别 就 在 于 他 们 考虑 的 条 件 码 的 组 合 
是 什么 ， 这 些 指令 名 字 的 不 同 后 缀 指明 了 它们 所 考虑 的 条 件 码 的 组 合 。 这些 指令 的 后 级 表示 不 
同 的 条 件 而 不 是 操作 数 大 小 ， 知 道 这 一 点 很 重要 。 人 例如， 指令 set1 和 setb 表示 “小 于 时 设 
置 ”(set less) 和 “ 低 于 时 设置 ”(set below )， 而 不 是 “设置 长 字 ”(set long word) 和 “设置 
字 节 ”(set byte )。 


sete D < 一 ZF 相等 零 ， 
Doe-~ZF 不 等 / 非 零 


D<SF 负数 

站 < ~SF 非 负数 
setnle D < ~(SF “~ OF) & ~ZF 大 于 (有 符号 >) 
setnl D < ~(SF ~ OF) 大 于 等 于 (有 符号 >=) 
setnge D<-SF~OF 小 于 (有 符号 < ) 
setng D < (SF ~ OF) | ZF 小 于 等 于 (有 符号 <= ) 
setnbe D < ~CF & ~ZF 超过 (无 符号 >) 
setnb D < ~CF 超过 或 相等 (无 符号 >=) 
setnae DCF 低 于 (无 符号 < ) 
setna D<-CF|ZF 低 于 或 相等 (无 符号 <=) 
3-11 SET 指令 。 每 条 指令 根据 条 件 码 的 某 个 组 合 ， 将 一 个 字 节 设置 为 0 或 者 1。 

有 些 指令 有 “ 同 义 名 ” 也 就 是 同一 条 机 器 指令 有 别 的 名 字 


一 条 SET 指令 的 目的 操作 数 是 8 个 单字 节 寄存 器 元 素 (图 3.2) 之 一 ， 或 是 存储 一 个 字 节 的 
存储 器 位 置 ， 将 这 个 字 节 设 置 成 0 或 者 1。 为 了 得 到 一 个 32 位 结果 ， 我 们 必须 对 最 高 的 24 位 清 
零 。 以 下 是 一 个 计算 C 语言 表达 式 a<b 的 典型 指令 序列 ， 这 里 a 和 b 都 是 int 类 型 ， 


a is in %edx, b is in Y%eax 





SIOUU SIOUU SU UD 


1 cmpl heax, %edx Compare a:b 
2 setl %al Set low order byte of Yeax to 0 or 1 
3 movzbl] ‘%al, heax Set remaining bytes of Yeax to 0 


movzb1l 指令 用 来 清 零 $eax 的 三 个 高 位 字 节 。 

某 些 底层 的 机 器 指令 可 能 有 允 个 名 字 ， 我 们 称 之 为 “ 同 义 名 ”(synonym)。 比 如 说 ，setg 
(表示 “设置 大 于 ”) 和 setnle (表示 “设置 不 小 于 等 于 ”) 指 的 就 是 同一 条 机 器 指令 。 编 译 器 
和 反 汇 编 器 会 随意 决定 使 用 哪个 名 字 。 

虽然 所 有 的 算术 操作 都 会 设置 条 件 码 ， 但 是 各 个 SET 命令 的 描述 都 适用 的 情况 是 : 执行 比 
较 指令 ， 根 据 计 算 t=a 一 b 设置 条 件 码 。 更 具体 地 说 ， 假 设 a、b 和 + 分 别 是 变量 a、b 和 t+ 的 补 
码 形 式 表 示 的 整数 ， 因 此 1= a 一 ,bp， 这 里 w 取决 于 a 和 上 b 的 大 小 。 

来 看 sete 的 情况 ， 即 “ 当 相 等 时 设置 ”(set when equal) 指令 。 当 a = 4b。 时， 会 得 到 += 0， 
因此 零 标 志 置 位 就 表示 相等 。 类 似 地 ， 考 虑 用 set1， 即 “ 当 小 于 时 设置 ”(set when less) 指令 ， 
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测试 一 个 有 符号 比较 。 如 果 没 有 发 生 洲 出 〈oOF 设置 为 0 就 表明 无 洲 出 )， 我 们 有 当 a 一 ,b<0 时 
a < b， 将 SF 设置 为 1 即 指明 这 一 点 ， 而 当 a 一 ">0 时 a > 2D, 由 SF 设置 为 0 指明 ， 男 二 方 
面 ， 如 果 发 生 溢出 ， 我 们 有 当 a 一 ,b> 0( 负 游 出) 时 a< 4b, 而 当 a 一 ,5<0( 正 溢出 ) 时 a> 
b。 当 a=b 时 ， 不 会 有 洲 出 。 因 此， 当 OF 被 设置 为 1 时 ， 我 们 有 当 且 仅 当 SF 被 设置 为 0， 有 a 
< 0。 将 这 些 情况 结合 起 来 ， 洲 出 和 符号 位 的 EXCLUSIVE-OR 提供 了 a < 是 否 为 真 的 测试。 其 
他 的 有 符号 比较 测试 基于 SF^OF 和 ZF 的 其 他 组 合 。 

”对 于 无 符号 比较 的 测试 ， 现 在 设 a 和 4b 是 变量 a 和 b 的 无 符号 形式 表示 的 整数 。 在 执行 计 
算 t=a-b 中 ， 当 a 一 b< 0 时 ，CMP 指令 会 设置 进位 标志 ， 因 而 无 符号 比较 使 用 的 是 进位 标志 
和 和 零 标 志 的 组 合 。 

注意 机 器 代码 如 何 区 分 有 符号 和 无 符号 值 是 很 重要 的 。 同 C 语言 不 同 ， 机 器 代码 不 会 将 每 
个 程序 值 都 和 一 个 数据 类 型 联系 起 来 。 相 反 ， 大 多 数 情 况 下 ， 机 器 代码 对 于 有 符号 和 无 符号 两 种 
情况 都 使 用 一 样 的 指令 ， 这 是 因为 许多 算术 运算 对 无 符号 和 补 码 算术 都 有 一 样 的 位 级 行为 。 有 些 
情况 需要 用 不 同 的 指令 来 处 理 有 符号 和 无 符号 操作 ， 例 如 ， 使 用 不 同 版 本 的 右 黎 、 除 法 和 乘法 指 
令 ， 以 及 不 同 的 条 件 码 组 合 。 
下 练习 题 3.13 考虑 以 下 C 语言 代码 ， 

int comp(data_t a, data_t b) { 

return a COMP b ; 

+ ; 

它 给 出 了 参数 a 和 bb 之 间 比 较 的 一 般 形 式 。 这 里 ， 我 们 可 以 用 typedef 来 声明 data.t， 从 而 设置 

参数 的 数据 类 型 ; 用 一 条 #define 声明 来 定义 COMP， 从 而 设置 比较 。 z 

假设 a 在 %edx 中 , b 在 seax 中 。 对 于 下 面 每 个 指令 序列 ， 确 定 哪 种 数据 类 型 data_t 和 比较 COMP 

会 导致 篇 译 器 产生 这 样 的 代码 。( 可 能 有 多 个 正确 答案 ， 请 列 出 所 有 的 正确 答案 。) 





A. cmpl heax, %edx 
setl %al 


B. cmpw hax, hdx 
setge  %al 


C. cmpb al, %dl 
setb hal 


D. cmpl heax, Wedx 
setne  ‘%al 


访 弹 练习 题 3.14 考虑 以 下 C 语言 代码 : 





int test(data_t a) { 
return a TEST 0 ; 
} 


给 出 了 参数 和 0 之 间 比 较 的 一 般 形 式 。 这里， 我 们 可 以 用 typedef 来 声明 data_t， 从 而 设置 
大 数 药 数 指 关 型， 通过 用 #define 来 声明 TEST， 从 而 设置 比较 的 类 型 。 对 于 下 面 每 个 指令 序列 ， 确 
定 哪 种 数据 类 型 data_ 上 和 比较 TEST 会 导致 编译 器 产生 这 样 的 代码 。 (可 能 有 多 个 正确 答案 ， 请 列 
出 所 有 的 正确 答案 。) 


el Weax, Weax 
setne  %al . 
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B. testw %ax, %ax 
sete %al 


C. testb Yal, %al 
setg %al 


D. testw %ax ，%ax 
seta %al 


3.6.3 ” 跳 转 指令 及 其 编码 

正常 执行 的 情况 下 ， 指令 按照 它们 出 现 的 顺序 一 条 一 条 地 执行 。 跳 转 〈jump) 指令 会 导致 
执行 切换 到 程序 中 一 个 全 新 的 位 置 。 在 汇编 代码 中 ， 这 些 跳 转 的 目的 地 通常 用 一 个 标号 〈label) 
指明 。 人 (完全 是 人 为 编造 的 ) : 


和 movV] $0， ee Set Yeax to0 

2 jmp Ct 和 Goto .11 

3 movl (% eax) , % edx Null pointer dereference 
| L1: 

$ popl %edx 


指令 jmp .L1 会 导致 程序 跳 过 mov1l 指令 ， 从 Pop1l 指令 开始 继续 执行 。 在 产生 目标 代码 文 
件 时 ， We Wa 并 将 中 条 昌林 SH OE ni 
的 一 部 分 ， .… 
图 3-12 列举 了 不 同 的 晃 转 指令 。 jmp 指令 是 无 条 件 跳 转 ， 它 可 以 是 直接 跳 转 , 即 跳 转 上 
标 是 作为 指令 的 一 部 分 编码 的 ; 也 可 以 是 间接 跳 转 ， 即 跳 转 目标 是 从 寄存 器 或 存储 器 位 置 中 读 
出 的 。 汇 编 语言 中 ， 直 接 跳 转 是 给 出 一 个 标号 作为 跳 转 目 标的 ， 例 如 上 面 所 示 代 码 中 的 标号 
“.L1”。 间 接 跳 转 的 写法 是 “*” 后 面 跟 一 个 操作 数 指示 符 ， 可 以 使 用 3.4.1 ED 
一 种 。 举 个 例子 ， 指 令 


jmp *%Seax 


用 寄存 器 $eax 中 的 值 作为 跳 转 目标 ， 而 指令 


jmp *(%Seax) 


以 seax 中 的 值 作为 读 地 址 ， 从 存储 器 中 读 出 跳 转 目 标 。 ，::. SR 

表 中 所 示 的 其 他 跳 转 指令 都 是 有 条 件 的 一 它们 根据 条 件 码 的 某 个 组 合 ， 或 者 跳 转 或 
者 继续 执行 代码 序列 中 下 一 条 指令 。 这 些 指令 的 名 字 和 它们 的 跳 转 条 件 与 SET 指令 是 相 匹 配 
的 (参加 图 3-11)。 同 SET 指令 一 样 ， 一 些 底层 的 机 器 指令 有 多 个 名 字 。 条 件 跳 转 只 4 能 是 直 
接 跳 转 。 

虽然 我 们 不 关 ， 心机 器 代码 格式 的 细节 ， 但 是 理解 跳 转 指令 的 目标 如 何 编码 ， 这 对 第 7 章 研究 
链接 非常 重要 。 此 外 ， 在 解释 反 汇 编 器 输出 时 ， 它 也 很 有 帮助 。 在 汇编 代码 中 ， 跳 转 目 标 用 符号 
标号 书写 。 汇 编 器 ， 以 及 后 面 的 链接 器 ， 会 产生 跳 转 目标 的 适当 编码 。 跳 转 指令 有 几 种 不 同 的 编 
码 ， 但 是 最 常用 的 都 是 PC 相关 的 (PC-relative， 译 者 注 ; PC = Program Counter， 程 序 计数 器 )。 
它们 会 将 目标 指令 的 地 址 与 紧 跟 在 跳 转 指令 后 面 那 条 指令 的 地 址 之 间 的 差 作为 编码 。 这 些 地 址 偏 
移 量 可 以 编码 为 1、2 或 4 个 字 市 。 第 二 种 编码 方法 是 给 出 ”地 址 ， 用 4 个 字 节 直接 指定 
目标 。 人 外 i a 
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图 3-12 jump 指令 。 当 跳 转 条 件 满足 时 ， 这 些 指令 会 跳 转 到 


在 访 缕 攀 和 掏 疗 


Label 
*Operand 


Label 
Label 


Label 
Label 


Label 
Label 
Label 
Label 


Label 
Label 
Label 
Label 


~(SF ~ OF) 
SF “~ OF 


~CF & ~ZF 





~(SF ~ OF) & ~ZF 


(SF ~ OF) | ZF 


人 
间接 跳 转 


相等 零 

不 相等 / 非 零 
负数 

非 负数 


大 于 (有 符号 >) 
大 于 或 等 于 (有 符号 >=) 
小 于 (有 符号 < ) 
小 于 或 等 于 (有 符号 <= ) 
超过 〈 无 符号 > ) 
超过 或 相等 (无 符号 >=) 
低 于 〈 无 符号 < ) 
低 于 或 相等 (无 符号 <=) 


一 条 带 标号 的 目的 地 。 


有 些 指令 有 “ 同 义 名 ” 也 就 是 同一 条 机 器 指令 的 别名 
下 面 是 一 个 与 PC 相关 的 寻 址 的 例子 ， 这 个 汇编 代码 的 片断 由 编译 文件 silly.c 产 生 的 。 
它 包 含 两 个 跳 转 : 第 1 行 的 jle 指令 前 向 跳 转 到 更 高 的 地 址 ， 而 第 8 行 的 jg 指令 后 向 跳 转 到 较 


jle .L2 if <=, goto dest2 
ED: destt: 

movl Wedx, heax 

sarl %eax 

subl Weax, hedx 

leal (Wedx,%edx,2), %edx 

testl] %edx, %edx 

jg .L5 if >, goto dest1 
2: dest2; 

movl Wedx, heax 


汇编 器 产生 的 “.o” 格 式 的 反 汇 编 版 本 如 下 : 


cov em wmwN 一 


:re 0d jle 
89 d0 moOV 
dl f8 sar 
29 c2 sub 
8d 14 52 lea 
85 d2 test 

7£ £3 jg 

: 89d0 / mov 


Target = dest2 
dest1: 


17 <silly+0x17> 
bedx ,heax 

Weax 

%eax,%edx 

(Wedx ,%edx ,2) ,hedx 


hedx ,hedx 
a <sillyt+Oxa> Target = destl 
hedx ,heax dest2: 


右边 反 汇编 器 产生 的 注释 中 ， 第 1 行 跳 转 指令 的 跳 转 目标 指明 为 0x17， 第 7 行 跳 转 指令 的 
跳 转 目标 是 0xa。 不 过 ， 观 察 指令 的 字 节 编码 ， 会 看 到 第 一 条 跳 转 指令 的 目标 编码 〈 在 第 二 个 
字 节 中 ) 为 0xd (十 进 制 13)。 把 它 加 上 0xa (十进制 10)， 也 就 是 下 一 条 指令 的 地 址 ， 就 得 到 
跳 转 目标 地 址 0x17 (十进制 23)， 也 就 是 第 8 行 指令 的 地 址 。 
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类 似 地 ， 第 二 个 跳 转 指 令 的 目标 用 单字 节 、 补 码 表示 编码 为 0x£3〔 十 进 制 一 13)。 将 这 个 数 
加 上 0x17( 十 进 制 23)， 即 第 8 行 指 令 的 地 址 ， 我 们 得 到 0xa (十 进 制 10)， 即 第 2 行 指令 的 地 址 。 

这 些 例子 说 明 ， 当 执行 与 PC 相关 的 寻 址 时 ， 程 序 计 数 器 的 值 是 跳 转 指令 后 面 的 那 条 指令 的 
地 址 ， 而 不 是 跳 转 指令 本 身 的 地 址 。 这 种 惯例 可 以 追溯 到 早期 实现 ， 当 时 的 处 理 器 会 将 更 新 程序 
计数 器 作为 执行 一 条 指令 的 第 一 步 。 


下 面 是 链接 后 的 程序 反 汇 编 的 版 本 : 

1 804839c: 7e 0d jle | 80483ab <silly+0x17> 
2 804839e: 89 d0 moV Medx ,%eax 

3 80483a0: dl f8 sar heax 

4 80483a2: 29 c2 sub %eax ,hedx 

5 80483a4: 8d 14 52 lea (Wedx ,hpedx ,2) ,Wedx 

6 80483a7: 85 d2 test %edx,%edx 

7 80483a9: 7f f3 jg 804839e i 
8 80483ab: 89 do moV hedx ,%eax 


这 些 指令 被 重 定 位 到 不 同 的 地 址 ， 但 是 第 1 行 和 第 7 行 跳 转 目标 的 编码 并 没有 变 。 通 过 使 用 
与 PC 相关 的 跳 转 目标 编码 ， 指 令 编码 很 简洁 〈 只 需要 2 个 字 节 )， 而 且 目 标 代 码 可 以 不 做 改变 
就 移 到 存储 器 中 不 同 的 位 置 。 
家 十 练习 题 3.15 “在 下 面 这 些 反 汇编 二 进 制 代码 节选 中 ， 有 些 信息 被 X 代替 了 。 回 答 下 列 关 于 这 些 指令 的 问题 。 
A. 下面 je 指令 的 目标 是 什么 ? 《在 此 ， 你 不 需要 知道 任何 有 关 cal1 指令 的 信息 。) 


804828f : 74 05 je XXXXXXX 
8048291 : e8 le 00 00 00 call 80482b4 





B. 下面 jb 指令 的 目标 是 什么 ? 


8048357 : 72 e7 jb XXXXXXX 
8048359: c6 05 10 a0 04 08 01 movb $0x1,0x804a010 
C. mov 指令 的 地 址 是 多 少 ? 

XXXXXXX: 74 12 je 8048391 
XXXXXXX : b8 00 00 00 00 mov $0x0,%eax 


D. 在 下 面 的 代码 中 ， 跳 转 目标 的 编码 是 PC 相关 的 ， 且 是 一 个 4 字 节 的 补 码 数 。 字 节 按 照 从 最 低位 到 
最 高 位 的 顺序 列 出 ， 反 映 出 IA32 的 小 端 法 字 节 顺序 。 跳 转 目标 的 地 址 是 什么 ? 


80482bf : e9 e0 ft ff ff jmp XXXXXXX 
80482c4: 90 nop 


BE. 请 解释 右边 的 注释 与 左边 的 字 节 代码 之 间 的 关系 。 

80482aa: ff 25 fc 9f 04 08 jmp  *0x8049ffc 

为 了 用 条 件 控 制 转 移 来 实现 C 语 言 的 控制 结构 ， 编 译 器 必须 使 用 刚才 介绍 的 各 种 类 
型 的 跳 转 指令 。 我 们 会 浏览 一 下 最 常见 的 结构 ， 从 简单 的 条 件 分 支 开 始 ， 然 后 考虑 循环 和 
switch 语句 。 四 


3.6.4 ”翻译 条 件 分 支 / : 
将 条 件 表达 式 和 语句 从 C 语言 翻译 成 机 器 代码 ， 最 常用 的 方式 是 结合 有 条 件 和 无 条 件 跳 转 。 
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( 另 一 种 方式 在 3.6:6 节 中 会 看 到 ， 有 些 条 件 可 以 用 数据 的 条 件 转移 实现 ， 而 不 是 用 控制 的 条 件 转 
移 来 实现 。) 例如 ， 图 3-13a 是 一 个 计算 两 数 之 差 绝 对 值 函 数 的 C 代码 。S 图 3-13c 是 GCC 产生 


的 汇编 代码 。 我 们 创建 了 对 应 的 C 语言 版 本 ， 称 为 gotodiff (图 3-13b)， 


它 更 加 紧密 地 遵循 


了 汇编 代码 的 控制 流 。 它 使 用 了 C 语言 中 的 goto 语句 ， 这 个 语句 类 似 于 汇编 代码 中 的 无 条 件 
跳 转 。 第 4 行 的 goto x_ge_y 语句 会 导致 一 个 跳 转 ， 转 移 到 第 7 行 中 的 标号 x_ge_y 处 ( 当 
x >》 时 会 进行 跳 转 )， 跳 过 了 第 5 行 的 计算 yY-x。 如 果 这 个 测试 失败 ， 程 序 会 计算 yx 结果 ， 
然后 无 条 件 转移 到 代码 的 结尾 。 使 用 goto 语句 通常 认为 是 一 种 不 好 的 编程 风格 ， 因 为 它 会 使 代 
码 非常 难以 阅读 和 调试 。 本 文中 使 用 goto 语句 ， 是 为 了 构造 描述 汇编 代码 程序 控制 流 的 C 程 


序 。 我 们 称 这 样 的 编程 风格 为 “goto 代码 ”。. 


int absdiff(int x, int y) { 
if (x<y) | 
‘Teturn y 一 X; 
else 
return X 一 y; 







a) 原始 的 C 语言 代码 


x at Xebpr8，y at %ebp+12 
8(X%ebp) ， 
12(%ebp), %eax 


aa. %edx 
Wedx, heax 





‘Vedx . 





int gotodiff(int x, int y) 
int result; 
if (x >= y) . 
goto x_ge_y; 
result = yy -Xi 


goto done ; 
XBLY. 
result = X 一 y; 
done: es 
Sebi result; 


} 
b) 与 之 等 价 的 goto 版 本 


Get xX 


a Xiy 


ee result = yx 
Goto done 


.XBe-y: 


Compute result = xX-y 


Set result as return value 


done: Begin completion code 
'c). 产生 的 汇编 代码 
图 3-13 条件 语 句 的 编译 。a) C 过 程 absdiff 包含 一 个 if-else 语句 


;Cc) 给 出 了 产生 的 汇编 代码 ; 


_b) C 过 程 gotodiff 模拟 了 汇编 代码 的 控制 流 。 省 略 了 汇编 代码 中 栈 的 建立 和 完成 部 分 


汇编 代码 的 实现 首先 比较 了 两 个 操作 数 〈 第 3 行 )， 设 置 条 件 码 。 


如 果 比 较 的 结果 表明 x 大 


于 或 者 等 于 y， 那 么 它 就 会 跳 转 到 计算 xy: 的 代码 块 (第 8 行 )， 否则 就 继续 执行 计算 y-x 的 
代码 (第 5 行 )。 在 这 两 种 情况 中 ， 计 算 结 果 都 存放 在 寄存 器 $eax 中 ， 程 序 到 第 10 行 结束 ， 在 


此 ， 它 会 执行 栈 完成 代码 “没有 显示 出 来 )。 


C 语言 中 的 if-else 洒 和 的 通用 形式 机 是 这 的 ， 


if (test-expr) 
. then-statement ; 
else 并 i 
else-statement ”| 


“日 实际 上 ， 如 圭一 个 减 污 省 出， 这 个 函数 就 会 返回 一 个 负数 值 。 这 时 我们 主要 是 为 了 展示 机 器 代码 ， 着 不是 实现 


“代码 的 健壮 性 。 
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这 里 test-expr 是 一 个 整数 表达 式 ， 它 的 取 值 为 0 (解释 为 “ 假 ”) 或 者 为 非 0 值 (解释 为 
“ 真 ”)。 两 个 分 支 语句 中 (then-statement 或 else-statement) 只 会 执行 一 个 。 


制 流 : 


t = test-expr; 
if (!t) 
goto false; 

then-statement 

goto done ; 
false: 

else-statement 
done: 


也 就 是 ， 汇 编 器 为 then-statement 和 else-statement 产生 各 目 Ne 
支 ， 以 保证 能 执行 正确 的 代码 块 。 
ES 练习 题 3.16 已 知 下 列 C 代码 : 





1 void cond(int a, int *p) 
2 苹 

3 if (p && a > 0) 

4 *p += a; 

S 


} 
GCC 对 函数 体 产 生 的 汇编 代码 如 下 : 


a hebp+8, p at Hebpt12 


1 movl 8(%ebp), hedx 

2 movl 12(%ebp) , %eax 

3 testl ‘Weax, %eax 

4 je . 工 3 

5 test1 ‘Wedx, wedx 

6 jle .L3 

7 add1 %edx, (%eax) 
”8 .L3: 


对 于 这 种 通用 形式 ， 汇 编 实现 通常 会 使 用 下 面 这 种 形式 ， 这 里 ， 我 们 用 C 语法 来 描述 控 


它 会 插入 条 件 和 无 条 件 分 


A. 按 腿 图 3-13 b 中 所 示 的 风 客 ， 用 语言 写 一 ee 执行 同样 的 计算 ， 并 模拟 汇编 代码 的 挫 


制 流 。 像 示例 中 那样 给 汇编 代码 加 上 注解 可 能 会 有 帮助 。 


B. 请 说 明 为 什么 C 语言 代码 中 只 有 一 个 if 语句， 而 汇编 代码 包 售 两 个 条 件 分 文 。 





Re Mls 种 可 行 的 规划 如 下 ， 


七 = test-expr; 
if (t) 
goto true; 

else-statement 

goto done; . 
true: 

then-statement 
done: 


A. 基于 这 种 规则 ， 重 写 absdiff 的 goto 版 本 。 
B. 你 能 想 出 选用 一 种 规则 而 不 选用 另 一 种 规则 的 理由 吗 ? 
于 练习 题 3.18 从 如 下 形式 的 C 语言 代码 开始 ， 
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1 int test(int x, int y) 荆 
int val = 

3 1f (0 ) { 

4 if ( ) 

5 Va a 
6 else 

7 Val 
8 } else if ( ) 

9 1 

10 return Val ; 

11 3} 

GCC 产生 如 下 的 汇编 代码 : 


x at hebp+8, y at Webp+12 


1 movl 8(%ebp) , heax 
2 mov]l 12(%ebp) , %edx 
3 cmpl $-3, %eax 

4 jge .L2 

5 cmpl hedx, %eax 

6 jle .L3 

7 imull “edx, %eax 

8 jmp .L4 

9 .L3: 

10 leal (%edx ,Xeax) ,Weax 
11 jmp .L4 

12 .1L2: 

13 cmpl $2,， Weax 

14 jg .L5 

15 xorl hedx, heax 

16 jmp .L4 

17 .Lb: 

18 subl Wedx, %eax 

19 .L4: 


填写 C 代码 中 缺失 的 表达 式 。 为 了 让 代码 能 够 符合 C 语言 代码 模板 ， 你 需要 还 原 GCC 对 计算 所 做 的 

某 些 重 排序 。 
3.6.5 ”循环 

C 语言 提供 了 多 种 循环 结构 ， 即 do-while、while 和 for。 汇 编 中 没有 相应 的 指令 存在 ， 

可 以 用 条 件 测试 和 跳 转 组 合 起 来 实现 循环 的 效果 。 大 多 数 汇 编 器 根据 一 个 循环 的 do-while 形 
式 来 产生 循环 代码 ， 即 使 在 实际 程序 中 这 种 形式 用 的 相对 较 少 。 其 他 的 循环 会 首先 转换 成 do- 
while 形式 ， 然 后 再 编译 成 机 器 代码 。 我 们 会 循序 渐进 地 研究 循环 的 翻译 ， 从 do-while 开 
始 ， 然 后 再 研究 具有 更 复杂 实现 的 循环 。 

1. do-while 循环 

do-while 语句 的 通用 形式 如 下 ; 


do 
body-statement 
while (test-expr); 


这 个 循环 的 效果 就 是 重复 执行 body-statement， 对 test-expr 求 值 ， 如 果 求 值 的 结果 为 非 零 ， 
则 继续 循环 。 可 以 看 到 ，body-~statement 至 少 会 执行 一 次 。 
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do-while 的 通用 形式 可 以 翻译 成 如 下 所 示 的 条 件 和 goto 语句 : 


loop: 
body-statement 
t = test-expr; 
if (t) 
goto loop; 


也 就 是 说 ， 每 次 循环 ， 程 序 会 执行 循环 体 里 的 语句 ， 然 后 执行 测试 表达 式 。 如 果 测 试 为 真 ， 则 回 
去 再 执行 一 次 循环 。 

看 一 个 示例 ， 图 3-14a 给 出 了 一 个 函数 的 实现 ， 用 do-while 循环 计算 函数 参数 的 阶乘 ， 
写作 n!。 这 个 函数 只 计算 n>0 时 阶乘 的 值 。 


int fact_do(int n) 
int result = 1; 
do 二 
result *= n; 
n= n-1; 
} while (n > 1); 
return result,; 


Argument: n at %ebp+8 


Registers: n in Wedx, result in %eax 


8(hebp) ， %edx Get n 





$1, %eax Set result = 1 
loop: 

Wedx, heax Compute result *= 站 
$1, hedx Decrement n 
$1, hedx Compare n:1 
.L2 Tf >, goto loo0p 

Return result J 

b) 寄存 器 使 用 c) 对 应 的 汇编 代码 


图 3-14 ”阶乘 程序 的 do-while 版 本 的 代码 。 给 出 了 C 代码 、 产 生 的 汇编 代码 和 寄存 器 使 用 表 





A. 用 一 个 32 位 int 表示 n!， 最 大 的 n 的 值 是 多 少 ? 

B. 如 果 用 一 个 64 位 long Long int 表示 ， 最 大 的 n 的 值 是 多 少 ? z 

图 3-14c 中 所 示 的 汇编 代码 是 一 个 do-while 循环 的 标准 实现 。 寄 存 器 sedx 保存 n，%eax 
保存 result， 苯 循 它 们 的 初始 值 ， 程 序 开始 循环 。 先 执行 循环 的 主体 ， 这 里 是 由 更 新 变量 
result 和 n (4 ~5 行 ) 组成。 然后 再 测试 n > 1， 如 果 是 真 ， 则 跳 回 到 循环 的 开始 。 这 里 的 条 
件 跳 转 〈 第 7 行 ) 是 实现 循环 的 关键 指令 ， 它 判断 是 继续 循环 还 是 退出 循环 。 

确定 哪些 寄存 器 存放 哪些 程序 值 可 能 会 很 有 挑战 性 ， 特 别 是 在 循环 代码 中 。 图 3-14 给 出 
了 这 样 一 种 映射 关系 。 在 这 种 情况 下 ， 映 射 关 系 很 好 确定 : 可 以 看 到 mn 在 第 1 行 被 加 载 到 寄存 
器 $edx 中 ， 第 5 行 会 被 减 1， 在 第 6 行 测试 它 的 值 。 因 此 我 们 断定 这 个 寄存 器 存放 的 是 n。 

我 们 可 以 看 到 寄存 器 seax 被 初始 化 为 1 (第 2 行 )， 在 第 4 行 被 乘法 更 新 。 进 一 步 说 ， 因 
为 seax 被 用 来 返回 函数 的 值 ， 所 以 常常 选 它 存放 要 返回 的 程序 值 。 所 以 我 们 断定 seax 对 应 于 
程序 值 result。 z 


逆向 工程 循环 

理解 产生 的 汇编 代码 与 原始 源 代码 之 间 的 关系 ， 关 键 是 找到 程序 值 和 寄存 器 之 间 的 映射 关 
系 。 对 于 图 3-14 的 循环 来 说 ， 这 个 任务 非常 简单 ， 但 是 对 于 更 复杂 的 程序 来 说 ， 就 可 能 是 更 具 
挑战 性 的 任务 。C 语言 编译 器 常常 会 重组 计算 ， 因此 有 些 C 代码 中 的 变量 在 机 器 代码 中 没有 对 


134 莫 一 次 分 “在 序 继 攀 和 效 行 


应 的 值 ; 而 有 时 ， 机 器 代码 中 又 会 引入 源 代码 中 不 存在 的 新 值 。 此 外 ， 编 译 器 还 常常 试图 将 多 个 
程序 值 映 射 到 一 个 寄存 器 上 ， 来 最 小 化 寄存 器 的 使 用 举 。 

我 们 描述 fact_do 的 过 程 对 于 逆向 工程 往 环 来 说 ， 是 一 个 通用 的 策略 。 看 看 在 循环 之 前 如 
何 初 始 化 寄存 器 ， 在 循环 中 如 何 更 新 和 测试 寄存 器 ， 以 及 在 循环 之 后 又 如 何 使 用 寄存 器 。 这 些 步 
又 中 的 每 一 步 都 提供 了 一 个 线索 ， 组 合 起 来 就 可 以 解 开 谜团 。 做 好 准备 ， 你 会 看 到 令 人 惊奇 的 变 
换 ， 其 中 有 些 情况 很 明显 是 编译 器 能 够 优化 代码 ， 而 有 些 情 况 很 难 解释 编译 器 为 什么 要 选用 那些 
奇怪 的 策略 。 根 据 我 们 的 经 验 ，GCC 常常 做 的 一 些 变换 ， 非 但 不 能 带 米 性 能 好 处 ， 反 而 其 至 可 


能 降低 代码 性 能 。 
sag 练习 题 3.20 已 知 C 代码 如 下 ; 





1 int dw_loop(int x, int y, int n) { 
2 do { 

3 X += 卫 ; 

4 y *= 卫 ; 

5 了 -一 ; 

6 } while ((n > 0) && (y < n)); 
7 return XX; 

8 


} 


GCC 产生 的 汇编 代码 如 下 : 


X at Webp+8, y at hebp+12, n at Webp+16 
movl 8(%ebp), %eax 


| 

2 movl 12(%ebp) ，%ecx 
3 movl 16(%ebp), hedx 
4 :Li2: J 
5 addl %edx, %eax 

6 imull .Wedx, %ecx: 

7 subl $1, %edx 

8 testl Wedx, %edx 

9 jle .L5 

10 cmpl %edx, hecx 

11 j1 .L2 

12 5: 


。 A. 创建 一 个 寄存 器 使 用 表 ， 参考 图 3-14b。 
_B. oe C 代码 中 的 test- -expr 和 body- statement, 以 及 汇编 代码 中 相应 的 行 


给 汇编 代码 添加 一 些 注释 ， PO 参考 图 3-14b。 
- > while 循环 : 
while 语句 的 通用 形式 如 下 ， 


区 while. (test-expr) ey 
body- -statement 


与 do-while 不 同 的 是 ， 它 对 test-expr 人 在 第 一 次 执行 body-statement 之 前 ， 循环 就 


可 能 中 止 。 将 while 循环 翻译 成 机 器 代码 有 很 多 种 方法 。 一 种 常见 的 方法 ， 也 是 GCC 采用 的 方法 ， 
是 使 用 条 件 分 文 ， i A A a 


if (ltest- expr) 
goto done; . 
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do 
body-statement 
while (test-expr); 
done: 


接 下 来 ， 这 个 代码 可 以 直接 翻译 成 goto 代码 ， 如 下 : 


t = test-expr; 
if (!t) 
goto done ; 
loop: 
body-statement 
t = test-expr; 
if (t) 
goto loop; 
done: 


使 用 这 种 实现 策略 ， 编 译 器 常常 会 优化 最 开始 的 测试 ， 比 如 说 认为 总 是 满足 测试 条 件 。 

举 个 例子 ， 图 3-15 是 使 用 while 循环 的 阶乘 函数 的 实现 〈 图 3-15a)。 这 个 函数 能 够 正确 地 
计算 0!1=1。 它 旁边 的 函数 fact while goto (图 3-15b) 是 GCC 产生 的 汇编 代码 的 C 语言 
翻译 。 比 较 fact_while (图 3-15) 和 fact_do (图 3-14) 的 代码 ， 我 们 看 到 它们 几乎 是 相 
同 的 。 唯 一 的 不 同 点 是 初始 的 测试 〈 第 3 行 ) 和 循环 的 跳 转 〈 第 .4 行 )。 将 while 循环 转换 成 
qo-while 循环 ， 以 及 将 后 者 翻译 成 goto 代码 ， 编 译 器 使 用 的 模板 与 我 们 的 差不多 。 


int fact_while_goto(int n)| 
{ 和 

int result = 1; 

if (n <= 1) 


int fact_while(int n) 


goto .done; 


loop: 


int result = 1; 

while (n > 1) { 
result *= 卫 ; 
n = n-1,; 


result *= n; 

n= n-1; . 

if (n > 1) 
goto loop; 


} done: 


return result,; 


} . | 
b) 等 价 的 goto 版 本 


a) C 代码 


Argument; n at hebp+8 





return result; 


Registers: n in Wedx, result in heax 


8(%ebp) , %edx 
mov]l $1, %eax 
cmpl $1, pedx 
jle .L7 

.L10: 
imull 


movl 


hedx, heax 
subl $1, hedx 
cmpl $1, %edx 
jg .L10 

a 


Return result 


c) 对 应 的 汇编 代码 


i 
2 
3 
4 
5 
6 
7 
8 
9 
10 


done : 





Get 

Set result = 1 

Compare n:1 

Tf <=, goto done 
loop: 

Compute result *= 1 

Decrement n 

Compare n:1 

1f >, goto loop 


图 3-15 阶乘 的 while 版 本 的 C 代码 和 汇编 代码 。fact_while_goto 函数 说 明了 汇编 代码 版 本 的 操作 
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练习 题 3.21 对 于 下 面 的 C 代码 : 


int loop.while(int a, int b) 





{ 
int result = 1; 
while (a < b) { 

result *= (a+b) ; 
a++， 
} 
return result; 
9 
GCC 产生 如 下 汇编 代码 : 


a at %kebp+8，P at hebp+12 


js movl 8(hebp) , hecx 
2 movl 12(hebp), hebx 
3 movl $1, %eax 

4 cmpl Xebx, %ecx 

5 jge. ,L11 \ 
6 leal (hebx, hecx), hedx 
7 movV1 $1, %eax 
8 ell 

“9:. imull ‘hedx, %eax 

10 add] “$1, hecx 

11 addl $1, %edx 

12 ‘cmpl hecx, hebx 

13 jg 1 

14 NW 


在 产生 这 段 代码 的 过 程 中 ，GCC 做 了 一 个 有 趣 的 转换 ， 实 际 上 是 引入 了 一 个 新 的 程序 变量 。 

A. 在 第 6 行 初始 化 寄存 器 sedx， 在 第 11 行 循环 体内 更 新 它 的 值 。 让 我 们 认为 这 是 一 个 新 的 程序 变 
量 。 请 描述 它 与 C 代码 中 的 变量 之 间 的 关系 。 

B. 创建 该 函数 的 寄存 器 使 用 表 。 

C. 给 汇编 代码 添加 一 些 注释 ， 描 述 它 的 操作 。 

D.〈 用 C 语 言 ) 写 一 个 该 函数 的 goto 版 本 ， 用 它 模仿 汇编 代码 程序 如 何 运行 。 

练习 题 3.22 函数 fun_a 有 如 下 整体 结构 : 





int fun_a(unsigned x) { 
int val = 0; 
while (.  .)1 
} 


return .....) 


} 


GCC C 编译 器 产生 如 下 汇编 代码 : 


X at hebp+8 
1 movl 8(hebp) , hedx 
2 movl $0, Weax 
3 testl hedx, %edx 
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4 je .L7 

3» .L10: 

0 Xorl] Wedx, Weax 

> shrl hedx Bhire vipht Dy 
8 jne .L10 

9 .L7: 

10 andl $1, Weax 


逆向 工程 这 段 代码 的 操作 ， 然 后 完成 下 面 的 作业 : 
A. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 
B. 用 自然 语言 描述 这 个 函数 是 计算 什么 的 。 

3. for 循环 

for 循环 的 通用 形式 如 下 : 


for (init-expr; test-expr; update-expr) 
body-statement 


语言 标准 说 明 (有 一 个 例外 ， 练 习题 3.24 中 有 特别 说 明 )， 这 样 一 个 循环 的 行为 与 下 面 这 
段 使 用 while 循环 代码 的 行为 一 样 ， 


init-expr ; 

While (test-expr) { 
body-statement 
update-expr; 


程序 首先 对 初始 表达 式 init-expr 求 值 ， 然 后 进入 循环 ; 在 循环 中 它 先 对 测试 条 件 test-expr 
求 值 ， 如 果 测 试 结果 为 “ 假 ” 就 会 退出 ， 否 则 执行 循环 体 body-statement ; 最 后 对 更 新 表达 式 
update-expr 求 值 。 

这 段 代码 编译 后 的 形式 ， 基 于 前 面 讲 过 的 从 while 到 do-while 的 转换 ， 首 先 给 出 
do-while 形式 : 


init-expr; 

if (!test-expr) 
goto done ; 

do { 
body-statement 
update-expr; 

} while (test-expr); 

”done: 


然后 ， 将 它 转 换 成 goto 代码 : 


init-expr; 
t = test-expr; 
if (!t) 
goto done ; 
loop: 
body-statement 
update-expr; 
t = test-expr; 
if (t) 
goto loop; 
done: 
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作为 一 个 示例 ， 考 虑 用 for 循环 写 的 阶乘 函数 : 


int fact_for(int n) = 


1 

2， 沁 

3 int i; 

4 int result = 1; 

5 for (i = 2; i <= n; i++) 
6 result *= i; 

7 return result; 

8 


如 上 述 代 码 所 示 ， 用 for 循环 编写 阶乘 函数 最 目 然 的 方式 就 是 将 从 2 一 直到 n 的 因子 乘 起 
来 ， 因 此 ， 这 个 函数 与 我 们 使 用 while 或 者 do-while 循环 的 代码 都 不 一 样 。 
这 段 代 码 中 for 循环 的 不 同 组 成 部 分 如 下 : 


init-expr i=2 
test-expr i <=n 
update-expr i++ 


body-statement result *= i; 
用 这 些 部 分 代入 前 面 给 出 的 模板 中 相应 的 位 置 ， 得 到 下 面 goto 代码 的 版 本 : 


int fact_for_goto(int n) 


1 

2 + 

3 int i = 2; 

4 int result = 1; 
5 if (!(i <= n)) 
6 goto done ; 
7 loop: 

8 result *= 工 ; 

9 i++; 

10 if (i <= D) 

11 goto loop; 
12 done: 

13 return result,; 
14 } 


确实 ,仔细 查看 GCC 产生 的 汇编 代码 会 发 现 它 非常 接近 于 以 下 模板 : 


Argument: n at %ebp+8 


Registers: n in Yecx, i in Wedx, result in heax 


1 movl 8(%ebp) , %ecx Get n 

2 movl $2,%edx Set i to 2 (init) 
3 movl $1, %eax Set result to 1 

4 cmpl $1, %ecx Compare n:1 (1test) 
5 jle .L14 If <=, goto done 

6 .L17: loop: 

7 imull] Whedx, heax Compute result *= i (body) 
8 addl $1, hedx Tncrement i (update) 
9 cmpl %edx, hecx Compare n:i (test,) 
10 jge .Li17 If >=, goto loop 

11 .L14: done: 








综 上 所 述 ，C 语言 中 三 种 形式 的 所 有 循环 一 一 do-while、while 和 for 一 一 都 可 以 用 一 种 
简单 的 策略 来 翻译 ， 产 生 包 含 一 个 或 多 个 条 件 分 支 的 代码 。 控 制 的 条 件 转移 为 循环 翻译 成 机 器 代 
码 提 供 了 基本 机 制 。 
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Sa 练习 题 3.23 ”函数 fun b 有 如 下 整体 结构 : 


int fun_b(unsigned X) 二 
int val = 0; 


int i; 
fF OE Ce ei 
} 
return Val ; 
} 
GCC C 编译 器 产生 如 下 汇编 代码 : 
x at hebp+8 
| movl 8(%ebp) ,%ebx 
2 movl $0, heax 
3 movl $0, /pecx 
4 .L13: 
5 leal (Weax,%eax) , hedx 
6 movl Xebx, Weax 
7 andl $1, heax 
8 orl hedx, heax 
9 shrl  %ebx Shift right by 1 
10 addl $1, %ecx 
11 cmpl $32 ， ,pecx 
12 jne .L13 


逆向 工程 这 段 代码 的 操作 ， 然 后 完成 下 面 的 作业 : 
A. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 
B. 用 自然 语言 描述 这 个 函数 是 计算 什么 的 。 
只 练习 题 3.24 在 C 语 言 中 执行 continue 语句 会 导致 程序 跳 到 当前 循环 迭代 的 结尾 。 当 处 理 continue 
语句 时 ， 将 for 循环 翻译 成 while 循环 的 描述 规则 需要 一 些 改进 。 例 如 ， 考 虑 下 面 的 代码 : 





/六 Example of for loop using a continue statement */ 

/* Sum even numbers between 0 and 9 */ 

int sum = 0; 

int i; 

for (i = 0; i < 10; 和 

if (i & 1) 
continue; 
sum += i; 
A. 如 果 我 们 天 真 地 直接 应 用 将 for 循环 翻译 到 while 循环 的 规则 ， 会 得 到 什么 呢 ? 产生 的 代码 会 有 
什么 错误 呢 ? : 

B. 如 何 用 goto 语句 来 蔡 代 continue 语句 ， 保 证 while 循环 的 行为 同 for 循环 的 行为 完全 一 样 。 
3.6.6 条 件 传 送 指令 | 

实现 条 件 操 作 的 传统 方法 是 利用 控制 的 条 件 转移 。 当 条 件 满足 时 ， 程 序 沿 着 一 条 执行 路 径 进 
行 ， 而 当 条 件 不 es 人 这 种 机 制 简 单 而 通用 ， 但 是 在 现代 处 理 器 上 ， 它 可 能 
会 非常 的 低 效率 。 

数据 的 条 件 转移 是 一 种 替代 的 策略 。 这 种 方法 先 计算 一 个 条 件 操作 的 两 种 结 果 ， 然 后 再 根据 
条 件 是 否 满足 从 而 选取 一 个 。 只 有 在 一 些 受 限制 的 情况 下 ， 这 种 策略 才 可 行 ， 但 是 如 果 可 行 ， 就 
可 以 用 一 条 简单 的 条 件 传送 指令 来 实现 它 。 条 件 传送 指令 更 好 地 匹配 了 现代 处 理 器 的 性 能 特性 。 
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我 们 将 介绍 这 一 策略 ， 以 及 它 在 几 种 较 新 版 本 的 IA32 处 理 器 上 的 实现 。 

从 1995 年 的 PentiumPro 开始 ， 近 代 IA32 处 理 器 都 拥有 条 件 传 送 指令 ， 这 些 指令 会 根据 条 
件 码 的 值 ， 选 择 要 么 什么 都 不 做 ， 要 么 将 一 个 值 复 制 到 一 个 寄存 器 。 多 年 来 ， 这 些 指令 很 少 被 使 
用 。 虽 然 从 1997 年 开始 ，Intel 及 其 竞争 者 生产 的 几乎 所 有 的 x86 处 理 器 都 支持 这 些 指令 ， 但 是 
在 过 去 GCC 默认 的 设置 中 ， 产 生 的 代码 不 使 用 这 些 指令 ， 因 为 这 样 没 办 法 做 到 后 向 兼容 性 。 近 
几 年 ， 对 于 在 确定 支持 条 件 传输 的 处 理 器 上 运行 的 系统 ， 例 如 基于 Intel 的 Apple Macintosh 计算 
机 (2006 年 出 现 的 )， 以 及 64 位 版 本 的 Linux 和 Windows，GCC 会 产生 使 用 这 些 条 件 传 送 指令 
的 代码 。 在 其 他 机 器 上 ， 通 过 指定 特殊 的 命令 行 参数 ， 我 们 可 以 告诉 GCC， 目标 机 器 支持 条 件 
传送 指令 。 

图 3-16a 给 出 了 图 3-13 中 说 明 条 件 分 文 的 absdiff 函数 的 一 个 变形 。 这 个 版 本 使 用 了 
条 件 表 达 式 ， 而 不 是 条 件 语句 ， 可 以 更 清晰 地 说 明 条 件数 据 传送 背后 的 概念 ， 但 是 实际 上 ， 
GCC 对 这 个 版 本 产生 的 代码 与 图 3-13 版 本 产生 的 代码 完全 一 样 。 如 果 给 GCC 以 命令 行 选项 
‘-march=i686 来 编译 这 段 代 码 9， 我 们 产生 的 汇编 代码 如 图 3-16c 所 示 ， 它 与 图 3-16b 中 所 
示 的 C 函数 cmovdiff 有 相似 的 形式 。 研 究 这 个 C 版 本 ， 我 们 可 以 看 到 它 既 计算 了 y-x， 也 
计算 了 x-y， 分 别 命名 为 tval 和 rval。 然 后 它 再 测试 x 是 否 小 于 YyY， 如 果 是 ， 就 在 函数 返回 
前 ,将 tval 复制 到 rval 中 。 图 3-16c 中 的 汇编 代码 有 相同 的 逻辑 。 关 键 就 在 于 汇编 代码 的 那 
条 cmov1 指令 (第 8 行 ) 实现 了 cmovdiff 的 条 件 赋值 (第 7 行 )。 除 了 这 条 指令 只 在 指定 的 
条 件 满 足 时 才 执 行 数据 传送 之 外 ， 它 的 语法 与 MOV 指令 的 相同 。(cmov1 中 的 后 缀 “1 ”代表 
“less” 而 不 是 “long”。) | 


int cmovdiff(int x, int y) { 
int tval = y-x; 
int rval = x-y; 
int test = x < y; 


/+ Line below redquires 

single instruction: */ 
if (test) rval = tval; 
return rval,; 





a) 原始 的 C 语言 代码 | b) 使 用 条 件 赋 值 的 实现 


x at Webp+8, y at hebp+12 
movl 8(%ebp) , Wecx Get x 














1 

2 movl 12(%ebp), hedx Get 了 

3 movl %edx, hebx Copy y 

4 subl Wecx, hebx Compate y~x 

5 movl XecX ，%eax Copy x 

6 subl %edx, heax Compute x-y and set as return value 
7 cmpl edx, hecx Compare x:y 

8 cmovl webx, heax If <, replace return value with y-x 








c) 产生 的 汇编 代码 
图 3-16 使 用 条 件 赋值 的 条 件 语句 的 编译 。 a)C 函数 absdiff 包含 一 个 条 件 表 达 式 。c) 产生 的 汇编 代码 ， 
b) 模拟 汇编 代码 操作 的 C 函数 cmovdiff。 省 略 了 汇编 代码 的 栈 的 建立 和 完成 部 分 


基于 条 件数 据 传送 的 代码 比 基 于 条 件 控制 转移 的 代码 (如 图 3-13 所 示 ) 性 能 好 ， 为 了 理解 
其 中 的 原因 ， 我 们 必须 了 解 一 些 关于 现代 处 理 器 如 何 运行 的 知识 。 正 如 我 们 将 在 第 4 章 和 第 5 章 
中 看 到 的 那样 ， 处 理 器 通过 使 用 流水 线 (pipelining) 来 获得 高 性 能 。 在 流水 线 中 ， 一 条 指令 的 


怠 在 GCC 的 术语 中 ，Pentium 被 认为 是 x86 系列 的 型 号 “586”， 而 PentiumPro 被 认为 是 型 号 “686”。 
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处 理 要 经 过 一 系列 的 阶段 ， 每 个 阶段 执行 所 需 操作 的 一 小 部 分 〈 例 如 ， 从 存储 器 中 取 指 令 ， 确 定 


指令 的 类 型 ， 从 存储 器 中 读数 据 ， 执 行 算术 运算 ， 向 存储 器 中 写 数据 ， 以 及 更 新 程序 计数 器 )。 
这 种 方法 通过 重合 连续 指令 的 步骤 来 获得 高 性 能 ， 例 如 ， 在 取 一 条 指令 的 时 候 ， 执 行 它 前 面 一 条 
指令 的 算术 运算 。 要 做 到 这 一 点 ， 要 求 能 够 事先 确定 要 执行 指令 的 序列 ， 这 样 才 能 保持 流水 线 中 
充满 了 待 执行 的 指令 。 当 机 器 遇 到 条 件 跳 转 〈 也 称 为 “分 支 ") 时 ， 它 常常 还 不 能 够 确定 是 否 会 
进行 跳 转 。 处 理 器 采用 非常 精密 的 分 支 预测 逻辑 试图 猜测 每 条 跳 转 指令 是 否 会 执行 。 只 要 它 的 
猜测 还 比较 可 靠 ( 现 代 微 处 理 器 设计 试图 达到 90% 以 上 的 成 功率 )， 指 令 流 水 线 中 就 会 充满 着 指 
令 。 另 一 方面 ， 错 误 预 测 一 个 跳 转 要 求 处 理 器 丢掉 它 为 该 跳 转 指令 后 所 有 指令 已 经 做 了 的 工作 ， 
然后 再 开始 用 从 正确 位 置 处 起 始 的 指令 去 填充 流水 线 。 正 如 我 们 会 看 到 的 ， 这 样 一 个 错误 预测 会 
招致 很 严重 的 惩罚 。 大 约 20 一 40 个 时 钟 周期 的 浪费 ， 导 致 程序 性 能 的 严重 下 降 。 

作为 一 个 示例 ， 我 们 在 Intel Core i7 处 理 器 上 运行 absdiff 函数 ， 用 两 种 方法 来 实现 条 件 
操作 。 在 一 个 典型 的 应 用 中 ， 测 试 x<y 的 结果 非常 不 可 预测 ， 因 此 即使 是 最 精密 的 分 支 预测 
硬件 也 只 能 有 大 约 50% 的 概率 猜 对 。 此 外 ， 两 个 代码 序列 中 的 计算 执行 都 只 需要 一 个 时 钟 周 
期 。 因 此 ， 分 支 预 测 错 误 处 罚 主 导 着 这 个 函数 的 性 能 。 对 于 包含 条 件 跳 转 的 IA32 代码 ， 我 们 
发 现 如 果 分 支行 为 模式 很 容易 预测 时 ， 每 次 调用 函数 需要 大 约 13 个 时 钟 周期 ; 而 分 支行 为 是 
随机 模式 时 ， 每 次 调用 需要 大 约 35 个 时 钟 周期 。 由 此 可 以 推断 出 分 支 预测 错误 的 处 罚 大 约 是 
44 个 时 钟 周 期 。 这 就 意味 着 函数 需要 的 时 间 大 约 在 13 到 57 个 周期 范围 之 内 ， 这 依赖 于 分 支 预 
测 是 否 正确 。 


如 何 确 定 分 支 预测 错误 的 处 罚 

假设 预测 错误 的 概率 是 p， 如 果 没 有 预 测 错 误 ， 执 行 代码 的 时 间 是 Tok， 而 预测 错误 的 处 罚 是 
Tp。 那 么 ， 作 为 疡 的 一 个 函数 ， 执 行 代码 的 平均 时 间 是 Tp )=(l1—p)Tortp(Toxt Tp)=TortpType 
如 果 已 知 Tox 和 TT,( 当 p=0.5 时 的 平均 时 间 )， 如 何 确 定 Tp。 将 参数 代入 等 式 ， 我 们 有 
J 二 Twe(0.5)=Tort0.5Thp， 所 以 有 Tigp=2(Tw 一 Tox)。 因 此 ， 已 知 Toi=13 和 T=35， 我 们 有 Tp=44。 


另 一 方面 ， 无 论 测试 的 数据 是 什么 ， 编 译 出 来 使 用 条 件 传送 的 代码 所 需 的 时 间 大 约 都 是 14 
个 时 钟 周 期 。 控 制 流 不 依赖 于 数据 ， 这 使 得 处 理 器 更 容易 保持 流水 线 是 满 的 。 
练习 题 3.25 在 Pentinum 4 上 运行 ， 当 分 支行 为 模式 非常 容易 预测 时 ， 我 们 的 代码 需要 大 约 16 个 时 钟 

周期 ， 而 当 模式 是 随机 时 ， 需 要 大 约 31 个 时 钟 周期 。 

A. 预测 错误 处 罚 大 约 是 多 久 ? 

B. 当 分 支 预测 错误 时 ， 这 个 函数 需要 多 少 个 时 钟 周期 ? 

图 3-17 列举 了 一 些 条 件 传送 指令 ， 它 们 随 着 PentiumPro 微 处 理 器 的 出 现 ， 并 增加 到 IA32 
指令 集中 ， 从 1997 年 开始 ，Intel 及 其 竞争 者 生产 的 大 多 数 IA32 处 理 器 都 支持 这 些 指令 。 其 中 
每 一 条 都 有 两 个 操作 数 : 源 寄存 器 或 者 存储 器 地 址 S$， 和 目的 寄存 器 R。 与 不 同 的 SET(3.6.2 节 ) 
和 跳 转 指令 (3.6.3 节 ) 一 样 ， 这 些 指令 的 结果 取决 于 条 件 码 的 值 。 源 值 可 以 从 存储 器 或 者 源 寄 
存 器 中 读 取 ， 但 是 只 有 在 满足 指定 的 条 件 时 ， 才 被 复制 到 目的 寄存 器 中 。 

对 于 IA32 来 说 ， 源 值 和 目的 值 可 以 是 16 位 或 32 位 长 ， 不 支持 单字 节 的 条 件 传送 。 无 条 件 
指令 的 操作 数 长 度 是 显 式 地 编码 在 指令 名 中 的 (例如 movw 和 mov1)， 而 汇编 器 可 以 从 目标 寄 
存 器 的 名 字 推 断 出 条 件 传送 指令 的 操作 数 长 度 ， 所 以 对 所 有 的 操作 数 长 度 ， 都 可 以 使 用 同一 个 指 
令 名 字 。 

”与 条 件 跳 转 不 同 ， 处 理 器 可 以 执行 条 件 传送 ， 而 无 需 预 测 测试 的 结果 。 处 理 器 只 是 读 源 值 
(可 能 是 从 存储 器 中 )， 检 查 条 件 码 ， 然 后 要 么 更 新 目的 寄存 器 ， 要 么 保持 不 变 。 我 们 会 在 第 4 章 
中 探讨 条 件 传送 的 实现 。 
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0 


cmove SS,R 相等 / 零 
cmovne S$,R ~ZF 不 相等 / 非 零 


cmovs S$,R SF 负数 
cmovns S$,R ~SF 非 负 数 


cmovg S$,R cmovnle ~(SF “OF)&~ZF | 大 于 (有 符号 >) 


cmovge $,R | cmovnl ~(SF ~ OF) 大 于 或 等 于 (有 符号 > =) 
cmovl S$,R cmovnge SF “~ OF 小 于 (有 符号 <) 


cmovle S,R | cmovng (SF ~ OF) | ZF 小 于 或 等 于 (有 符号 < 二) 
cmova S$,R | cmovnbe | ~CF&~ZF 超过 无 符号 >) z 


cmovae S$,R | cmovnb ~CF 超过 或 相等 (无 符号 > =) 
cmovb 5S,R | cmovnae CF 低 于 (无 符号 <) 


cmovbe S$,R cmovna CF|IZF . 低 于 或 相等 (无 符号 < =) 


图 3-17 条 件 传 送 指令 。 当 传送 条 件 满足 时 ， 指 令 将 5 值 复制 到 RR 中。 
有 些 指令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 的 别名 


为 了 理解 如 何 通过 条 件数 据 传输 来 实现 条 件 操作 ， 考 虑 下 面 的 条 件 表达 式 和 赋值 的 通用 形式 : 


V = test-expr ? then-expr : else-expr; 


对 于 传统 的 IA32， 编 译 器 产生 的 代码 具有 以 下 抽象 代码 所 示 的 形式 : 


if (!test-expr) 
goto false; 
V = Irue-expr; 
goto done ; 
“false: 
V = else-expr; 
done: 


这 个 代码 包含 两 个 代码 序列 一 一 一 个 对 then-expr 求 值 ， Cn else-expr 求 值 。 将 条 件 
跳 转 和 无 条 件 跳 转 结合 起 来 使 用 目的 是 保证 只 有 一 条 序列 执行 
”基于 条 件 传 送 的 代码 ， 会 对 then-expr 和 else-expr -都 求 值 最 终 值 的 选择 基于 对 

test-~expr 的 求 值 。 可 以 用 下 面 的 抽象 代码 描述 : 

vt = then-expr; 

V = else-expr; 

t = test-expr; 

if (t)'v = vt; 


这 个 序列 中 的 最 后 一 条 语句 是 用 条 件 传送 实现 的 一 只 有 当 测 试 条 件 t 满足 时 ，vt 的 值 才 会 被 
复制 到 v 中 。 

不 是 所 有 的 条 件 表达 式 都 可 以 用 条 件 传送 来 编译 。 最 重要 的 是 ， 我 们 给 出 的 抽象 代码 会 对 
then-expr 和 else-expr 都 求 值 ， 无 论 测试 结果 如 何 。 如 果 这 两 个 表达 式 中 的 任意 一 个 可 能 产生 错 
误 条 件 或 者 副作用 ， 就 会 导致 非法 的 行为 。 作 为 说 明 ， 考 虑 下 面 这 个 C 函数 : 





int cread(int *xp) { 
‘return (xp ? *xp : 0); 


乍 _ 看 ， 这 段 代码 似乎 很 适合 编译 ， 使 用 条 件 传送 读 指针 xp 所 指向 的 值 ， 汇 编 代码 如 下 所 示 : 
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lnvalid impilieinentation of function cread 


Xp in register fedx 


] movl $0, heax Set 0 as return value 
2 testl Whedx, hedx Test xp 
3 cmovne (%edx), %eax if 10, dereference xp to get return value 


不 过 ， 这 个 实现 是 非法 的 ， 因 为 即使 当 测试 为 假 时 ，cmovne 指令 (第 3 行 ) 对 xp 的 间接 
引用 还 是 发 生 了 ， 导 致 一 个 间接 引用 空 指针 的 错误 。 作 为 蔡 代 的 方法 ， 必 须 用 分 支 代 码 来 编译 这 
段 代 码 。 

当 两 个 分 支 会 产生 副作用 时 ， 也 是 类 似 的 情况 ， 函 数 说 明 如 下 : 

/* Global variable */ 
int lcount = 0; 
int absdiff_se(int x, int y) 1 
return x < y ? (lcount++, y-x) : x-y; 


nn 


} 


这 个 函数 在 then-expr 中 会 对 全 局 变量 1count 加 一 。 因 此 ， 必 须 用 分 支 代码 来 保证 只 有 当 
测试 条 件 满足 时 才 会 产生 这 个 副作用 。 

使 用 条 件 传送 也 不 是 总 会 改进 代码 的 效率 。 例 如 ， 如 果 then-expr 或 者 else-expr 的 求 
值 需 要 大 量 的 计算 ， 那 么 当 相 对 应 的 条 件 不 满足 时 ， 这 些 工作 就 白费 了 。 编 译 器 必须 考虑 浪费 的 
计算 和 由 于 分 支 预测 错误 所 造成 的 性 能 处 罚 之 间 的 相对 性 能 。 说 实话 ， 编 译 器 并 不 具有 足够 的 信 
a 例如 ， 它 们 不 知道 分 支 遵 循 可 预测 的 模式 有 多 好 。 我 们 对 GCC 的 实验 表 

明 ， 只 有 当 两 个 表达 式 都 很 容易 计算 时 ， 例 如 表达 式 分 别 都 只 是 一 条 加 法 指令 ， 它 才 使 用 条 件 传 
送 。 根 据 我 们 的 经 验 ， 即 使 许多 分 支 预测 错误 的 开销 会 超过 更 复杂 的 计算 ，GCC 还 是 会 使 用 条 
件 控制 转移 。 

所 以 ， 总 的 来 说 ， 条 件数 据 传送 提供 了 一 种 用 条 件 控制 转移 来 实现 条 件 操作 的 蔡 代 策 略 。 它 
们 只 能 用 于 很 受 限 制 的 情况 ， 但 是 这 些 情 况 还 是 相当 常见 的 ， 而 且 充 分 利用 到 了 现代 处 理 器 的 运 
行 方式 。 
敬 于 练习 题 3.26 ”在 下 面 的 C 函数 中 ， 我 们 对 OP 操作 的 定义 是 不 完整 的 : 


#define OP 








‘/* Unknown operator */ 


int arith(int x) { 
return x OP 4; 


} 
当 编译 时 ，GCC 会 产生 如 下 汇编 代码 ， 


Register: x 了 ID hedx 
leal 3(%edx) , %eax 
.testl hedx, hedx .| 
cmovns %edx, heax 
sarl $2 ， 人 Return value in Xeax 


\ A. OP 进行 的 是 什么 操作 ? 
。 B. 给 代码 添加 注释 ， 解 释 它 是 如 何 工作 的 。 
2 练习 题 3.27 C 代码 开始 的 形式 如 下 : 


必 wh 一 





1 ‘int test(int x, int y) + 
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2 

3 ) 二 

4 if ( ead 

5 Val = 
6 else 

7 Va 
8 } else if ( ) 

9 Val = : . 





10 . return Val ; 
11 } i 
GCC 带 命令 行 设置 -march=i686”， 产 生 如 下 汇编 代码 : 


Yat Webpt8, y at Webp+12 
movl 8(hebp), ebx 


1 
2 movl 12(%hebp), %ecx 
3 testl] ‘Whecx, hecx 
4 jle L2 
5 movl Webx, %edx 
6 subl hecx, hedx 
7 movl: Wecx, heax 
8 xorl Webx, Weax 
.9 cmpl  %ecx, %hebx 
10 cmovl ‘hedx, %eax 
1 jmp .LI4 | 
12 :LL2:: | Ea 
13 leal 0(,%ebx,4), %edx 
14 ileal (Wecx, Webx) ,Wheax 
a cmp1l $-2，%ecx 
16 . cmovge ‘%edx, %eax 
7 .LL4: 
填补 C 代码 中 缺失 的 表达 式 。 


3. 6. 7 switch 语句 . z 

switch 《开关 ) 语句 可 以 根据 一 个 整数 索引 值 进行 多 重 分 支 (multi-way branching)。 处 理 
具有 多 种 可 能 结果 的 测试 时 ， 这 种 语句 特别 有 用 。 它 们 不 仅 提 高 了 C 代码 的 可 读 性 ， 而 且 通过 
使 用 跳 转 表 (jump table) 这 种 数据 结构 使 得 实现 更 加 高 效 。 跳 转 表 是 一 个 数组 ， 表 项 i 是 一 个 
代码 段 的 地 址 ， 这 个 代码 段 实现 当 开 关 索 引 值 等 于 i 时 程序 应 该 采取 的 动作 。 程 序 代码 用 开关 
索引 值 来 执行 一 个 跳 转 表 内 的 数组 引用 ， 确 定 跳 转 指令 的 目标 。 和 使 用 一 组 很 长 的 if-else 语 
句 相 比 ， 使 用 跳 转 表 的 优点 是 执行 开关 语句 的 时 间 与 开关 情况 的 数量 无 关 。GCC 根据 开关 情况 
的 数量 和 开关 情况 值 的 稀少 程度 (sparsity) 来 翻译 开关 语句 。 当 开关 情况 数量 比较 多 〈 例 如 4 
个 以 上 )， 并 且 值 的 范围 跨度 比较 小 时 ， 就 会 使 用 跳 转 表 。 

图 3-18a 是 一 个 C 语言 switch 语句 的 示例 。 这 个 例子 有 些 非常 有 意思 的 特征 ， 包 括 情 况 
标号 (case label) 跨 过 一 个 不 连续 的 区 域 (情况 101 和 105 没有 标号 )， 有 些 情况 有 多 个 标号 
(情况 104 和 106)， 而 有 些 情况 则 会 落 入 其 他 情况 之 中 情况 102)， 因 为 对 应 该 情况 的 代码 段 没 
有 以 break 语句 结尾 。 

图 3-19 是 编译 switch_eg 时 产生 的 汇编 代码 。 这 段 代码 的 行为 用 C 的 扩展 形式 来 描述 就 
是 图 3-18b 中 的 过 程 switch_eg_impl。 这 有 段 代码 使 用 了 GCC 提供 的 对 跳 转 表 的 支持 ， 这 是 
对 C 语 言 的 扩展 。 数 组 jt 包含 7 个 表 项 ， 每 个 都 是 一 个 代码 块 的 地 址 。 这 些 位 置 由 代码 中 的 标 
号 定义 ， 在 jt 的 表 项 中 由 代码 指针 指明 ， 由 标号 加 上 “&&” 前 缀 组 成 。( 回 想 运 算 符 & 创建 一 
个 指向 数据 值 的 指针 。 在 做 这 个 扩展 时 ，GCC 的 作者 们 创造 了 一 个 新 的 运算 符 &&， 这 个 运算 符 
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创建 一 个 指向 代码 位 置 的 指针 。〉 建议 你 研究 一 下 C 语言 过 程 switch_eg_imp1， 以 及 它 与 汇 
编 代 码 版 本 之 间 的 关系 。 


~ int switch_eg_impl(int x, int n) { 
/* Table of code pointers */ 
static void *jt[7] = { 
&&loc_A, &&loc_def, &&loc_B, 
&&loc._C, &&loc_D, &&loc_def, 
&&loc_D 
}; 


unsigned index = n - 100; 
int result; 


if (index > 6) 
goto loc_def; 


/* Multiway branch */ 
goto *jt[index]; 


int switch_eg(int x, int n) { 
int result = x; loc_def: /* Default case*/ 
| result = 0; 


switch (n) 芋 goto done ; 


1 
2 
3 
4 
5 


loc_C: /+ Case 103 */ 
result = XxX; 
goto rest,; 


case 100: 
result *= 13; 
break ; 


loc_A: /* Case 100 */ 
result = x * 13; 
goto done; 


case 102: 
result += 10; 
/* Fall through */ 


loc_B: /* Case 102 */ 
result = x + 10; 
/* Fall through */ 


case 103: 
result += 11; 
break; 

rest: /* Finish case 103 */ 
result += 11; 
goto done; 


case 104: 
case 106: 
result 
break ; 
1oc_D: /* es 104, 106 */ 
result = x * XxX; 
/+ Fai. iirough */ 


default: 
result = 


} 四 
done : 
return result; 





return result; 





, a) switch 语句 b) 翻译 到 扩展 的 C 语言 
图 3-18 switch 语句 示例 以 及 翻译 到 扩展 的 C 语言 。 翻 译 给 出 了 跳 转 表 jt 的 结构 ， 以 及 
- 如何 访 问 它 。GCC 支持 这 样 的 表 作为 对 C 语言 的 扩展 
原始 的 C 代码 有 针对 值 100、102 一 104 和 106 的 情况 ， 但 是 开关 语句 的 变量 n 可 以 是 任意 
整数 。 编 译 器 首先 将 n 减 去 100， 把 取 值 范围 移动 到 0 和 6 之 间 ， 创 建 一 个 新 的 程序 变量 ， 在 我 
们 的 C 版 本 中 称 为 index。 补 码 表示 的 负数 会 映射 成 无 符号 表示 的 大 正 数 ， 利 用 这 一 事实 ， 将 
index 看 作 无 符号 值 ， 从 而 进一步 简化 了 分 支 的 可 能 性 。 因 此 可 以 通过 测试 index 是 否 大 于 6 


146 旬 一 瘟 分 程序 谨 欧 和 和 克 疗 


来 判定 index 是 否 在 0 一 6 的 范围 之 外 。 在 C 和 汇编 代码 中 ， 根 据 index 的 值 ， 有 五 个 不 同 
的 跳 转 位 置 : loc A (在 汇编 代码 中 指示 为 .L3),1oc _B (.L4),1PpEWY. BALD DOGneY 
和 1loc def(.L2)， 最 后 一 个 是 默认 的 目的 地 址 。 每 个 标号 都 标识 一 个 实现 该 情况 分 支 的 代码 
块 。 在 C 和 汇编 代码 中 ， 程 序 都 是 将 index 和 6 做 比较 ， 如 果 大 于 6 就 跳 转 到 默认 的 代码 处 。 


X at %ebp+8, nn at Webp+12 

movl 8(%ebp) , %edx Get x 
mov]l 12(%ebp) ，%eax Get hn 
Set up Tump table access 
subl $100, Weax 
cmpl $6, heax 

ja sh 

jmp *.L7( ,heax,4) 
Default case 


Coimpute index = n~100 
Compare index:6 
If 2, goto loc._def 


Goto *jtf[index] 


“Li2: 


movl $0, heax 
jmp .L8 
Case 103 


“LS: 


movl Wedx, heax 
jmp .L9 
Case 100 


“LL3: 


leal (Wedx,%edx,2), heax 
leal (Wedx,%eax,4) , heax 
jmp .L8 
Case i102 


.L4: 


leal ’ 10(%edx), %eax 
Fall through 


$11, %eax 
.L8 | 
Cases 104, 106 
.16: 
movl Wedx, Weax 


imull %edx, %eax 
Fa through 


1oc_derf : 
result = 0: 


GOto done 


ioc GC: 
resuilt = x; 


GOto rest 


loc_hA: 
result “= xX*3; 
result = xi+4*result 


Goto done 


loc_B: 
result ~ x+10 


rest: 
result += 11， 


Goto done 


loc._D 
result = xX 


Yesult x¥= 


.L8: 、 done: 


Return resuit 


图 3-19 图 3-18 中 switch 语句 示例 的 汇编 代码 

执行 switch 语句 的 关键 步骤 是 通过 跳 转 表 来 访问 代码 位 置 。 在 C 代码 中 是 第 16 行 ， 一 条 
goto 语句 引用 了 跳 转 表 jt。GCC 支持 计算 goto (computed goto)， 是 对 C 语 言 的 扩展 。 在 我 
们 的 汇编 代码 版 本 中 ， 类 似 的 操作 是 在 第 6 行 ，jmp 指令 的 操作 数 有 前 级 “*”， 表 明 这 是 一 个 
间接 跳 转 ， 操 作 数 指定 一 个 存储 器 位 置 ， 索 引 由 寄存 器 $eax 给 出 ， 这 个 寄存 器 保存 着 ijndex 
的 值 。( 我 们 会 在 3.8 节 中 看 到 如 何 将 数组 引用 翻译 成 机 器 代码 。) 

C 代码 将 跳 转 表 声 明 为 一 个 有 7 个 元 素 的 数组 ， 每 个 元 素 都 是 一 个 指向 代码 位 置 的 指针 。 这 
些 元 素 跨 越 index 的 值 0 ~ 6， 对 应 于 n 的 值 100 ~ 106。 可 以 观察 到 ， 跳 转 表 对 重复 情况 的 
处 理 就 是 简单 地 对 表 项 4 和 6 用 同样 的 代码 标号 (1oc_D)， 而 对 于 缺失 情 况 的 处 理 就 是 对 表 项 
1 和 5 使 用 默认 情况 的 标号 (loc_def)。 

在 汇编 代码 中 ， 跳 转 表 用 以 下 声明 表示 ， 我 们 添加 了 一 些 注释 : 
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.Section .rodata 


1 

2 .align 4 Alien address to muiltiple of 4 
3 :bt 

4 .long .L3 Case 100: loc_A 

5 .long .上 2 Case 101: loc._der 

6 .long .L4 Case 102; loc_B 

7 .long .L5 Case 103: loc_C 

2 .long .L6 Case 104: loc.D 

9 .long .LL2 Case 105: loc_der 

10 ‘long .LL6 Case 106: 1cc_D 


. 这 些 声明 表明 ， 在 “.rodata”( 只 读数 据 ，Read-Only Data ) 的 目标 代码 文件 的 段 中 ， 应 
该 有 一 组 7 个 “长 ” 字 (4 个 字 节 )， 每 个 字 的 值 都 是 与 指定 的 汇编 代码 标号 〈 例 如 .L3) 相关 
的 指令 地 址 。 标 号 .17 标记 出 这 段 分 配 地 址 的 起 始 。 与 这 个 标号 相对 应 的 地 址 会 作为 间接 跳 转 
(第 6 行 ) 的 基地 址 。 

不 同 的 代码 块 (C 标 号 loc A 到 loc D 和 1loc def) 实现 了 switch 语句 的 不 同 分 文 。 
它们 中 的 大 多 数 只 是 简单 地 计算 了 result 的 值 ， 然 后 跳 转 到 函数 的 结尾 。 类 似 地 ， 汇 编 代 码 
段 计 算 了 寄存 器 $eax 的 值 ， 并 且 跳 转 到 函数 结尾 处 由 标号 .L8 指示 的 位 置 。 只 有 情况 标号 102 
和 103 的 代码 不 是 这 种 模式 的 ， 正 好 说 明 在 原始 C 代码 中 情况 102 会 落 到 情况 103 中 。 汇 编 代 
码 和 switch _eg_impl 的 处 理 方法 是 : 这 两 种 情况 有 不 同 的 目的 地 址 (在 C 中 是 loc_C 和 
loc_B， 在 汇编 代码 中 是 .L5 和 .LL4)， 这 两 个 代码 块 都 汇总 到 将 result 加 11 的 代码 (在 C 
中 标号 是 rest， 在 汇编 代码 中 是 .L9 )。 

检查 所 有 这 些 代 码 需 要 很 仔细 地 研究 ， 但 是 关键 是 领会 使 用 跳 转 表 是 一 种 非常 有 效 的 实现 多 
重 分 支 的 方法 。 在 我 们 的 例子 中 ， 程 序 可 以 只 用 一 次 跳 转 表 引用 就 分 支 到 5 个 不 同 的 位 置 ; 甚至 
当 switch 语句 有 上 百 种 情况 的 时 候 ， 也 可 以 只 用 一 次 跳 转 表 访问 去 处 理 。 
练习 题 3.28 下 面 的 C 函数 省 略 了 switch 语句 的 主体 。 在 C 代码 中 ， 情 况 标号 是 不 连续 的 ， 并 且 

有 些 情 况 还 有 多 个 标号 。 





int Switch2(int x) + 
int result = 0; 
switch (x) { , 
/* Body of Switch statement omitted */ 
} 
return result; 


} 
在 编译 函数 时 ，GCC 为 程序 的 初始 部 分 以 及 跳 转 表 生 成 了 以 下 汇编 代码 。 变 量 x 开始 时 位 于 相对 于 案 
存 器 sebp 偏 移 量 为 8 的 地 方 。 


了 0 
X at hebpr+8 Jump table 了 or switch2 


1 movl 8(hebp) , %eax 1 .L8: 
Set up jump table access 2 .long .LL3 
addl $2, heax 3 ,Long  .L2 
3 cmpl $6, heax 4 .long .LL4 
4 ja .L2 5 ‘long .1L5 
5 jmp *.L8(,%eax,4) 8 .long .16 
7 .long .L6 

8 ‘long .LV . 


， 根据 上 述 信息 回答 下 列 问题 : 
Switch 语句 体内 情况 标号 的 值 是 多 少 ? 
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B.C 代码 中 哪些 情况 有 多 个 标号 ? 
P| 练习 题 3.29 已 知 一 个 通用 结构 的 C 函数 switcher: 





1 int switcher(int a, int b, int c) 


2 

3 int answer; 

4 | switch(a) { 

5 case  : /* Case A */ 
6 C = a 

. /* Pal nouen */ 

8 Case /* Case B */ 
9 answer = . ..  . .;) 

10 break ; 
1 case __  _  _ : /+* Case GC */ 
12 Case@ /+* Case D */ 
13 answer = .  ......) 

14 break ; 

15 CaSG /* Case E */ 
16 answer = yp - 

17 : break ; 

18 default: 

19 AanSWer = 

20 } 

21 return answer; 

22 3} 


GCC 产生 如 图 3-20 所 示 的 汇编 代码 和 跳 转 表 。 
填写 C 代码 中 缺失 的 部 分 。 除 了 情况 标号 C 和 D 的 顺序 之 外 ， 将 不 同情 况 霹 入 这 个 模板 的 方式 是 唯一 的 。 


a at Webp+8, b at hebp+12, c at hebp+16 
movl 8(%ebp) , heax ] :LT 
cmpl $7, %eax 
j .L2 

*.L7( ,heax,4) 


12(%ebp) , heax 
.L8 


‘OO oo NR mm RR ww NV 


$4, %eax 
.L8 


12(%ebp), heax 
$15, %eax 
%eax, 16(%ebp) 


16(%ebp), heax 
$112, Weax 
.18 


16 (%ebp) , heax 
12(%ebp) ， %eax 
$2, heax 





图 3-20 练习 题 3.29 的 汇编 代码 和 跳 转 表 
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3.7 过程 


一 个 过 程 调用 包括 将 数据 〈 以 过 程 参数 和 返回 值 的 形式 ) 和 控制 从 代码 的 一 部 分 传递 到 另 一 
部 分 。 男 外 ， 它 还 必须 在 进入 时 为 过 程 的 局 部 变量 分 配 空间 ， 并 在 退出 时 释放 这 些 空间 。 大 多 
数 机 器 ， 包 括 IA32， 只 提供 转移 控制 到 过 程 和 从 过 程 中 转移 出 控制 这 种 简单 的 指令 。 数 据 传递 、 
局 部 变量 的 分 配 和 释放 通过 操纵 程序 栈 来 实现 。 

3.7.1 栈 帧 结构 

IA32 程序 用 程序 栈 来 支持 过 程 调用 。 机 器 用 栈 来 传递 过 程 参数 、 存 储 返 回信 息 、 保 存 寄 
存 右 用 于 以 后 恢复 ， 以 及 本 地 存储 。 为 单个 过 程 分 配 的 那 部 分 栈 称 为 栈 幅 (stack frame)。 图 
3-21 描绘 了 栈 帧 的 通用 结构 。 栈 帧 的 最 顶端 以 两 个 指针 界定 ， 寄 存 器 $ebp 为 帧 指针 ， 而 寄存 
角 $esp 为 栈 指针 。 当 程序 执行 时 ， 栈 指针 可 以 移动 ， 因 此 大 多 数 信息 的 访问 都 是 相对 于 帧 指 
针 的 。 


栈 底 


较 早 的 帧 
地 址 增 大 
调用 者 的 帧 
帧 指针 
Sebp 
被 保存 的 寄存 器 、 
本 地 变量 和 


栈 指针 参数 构造 区 域 
Sesp 





栈 顶 
图 3-21 栈 帧 结构 栈 用 来 传递 参数 、 存 储 返回 信息 、 保 存 寄存 器 ， 以 及 本 地 存储 ) 
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假设 过 程 P (调用 者 ) 调用 过 程 Q (被 调用 者 )， 则 Q 的 参数 放 在 P 的 栈 帧 中 。 另 外 ， 当 P 
调用 Q 时 ，P 中 的 返回 地 址 被 压 人 栈 中 ， 形 成 P 的 栈 帧 的 末尾 。 返 回 地 址 就 是 当 程序 从 Q 返回 
时 应 该 继续 执行 的 地 方 。9 的 栈 帧 从 保存 的 帧 指针 的 值 〈 例 如 sebp) 开始 ， 后 面 是 保存 的 其 他 
寄存 器 的 值 。 : 

过 程 @ 也 用 栈 来 保存 其 他 不 能 存放 在 寄存 器 中 的 局 部 变量 。 这 样 做 的 原因 如 下 : 

。 没有 足够 多 的 寄存 器 存放 所 有 的 局 部 变量 。 

。 有 些 局 部 变量 是 数组 或 结构 ， 因 此 必须 通过 数组 或 结构 引用 来 访问 。 

* 要 对 一 个 局 部 变量 使 用 地 址 操作 符 “& ， 我 们 必须 能 够 为 它 生 成 一 个 地 址 。 

另外 ，Q 会 用 栈 帧 来 存放 它 调 用 的 其 他 过 程 的 参数 。 如 图 3-21 所 示 ， 在 被 调用 的 过 程 中 ， 
第 一 个 参数 放 在 相对 于 sebp 偏 移 量 为 8 的 位 置 处 ， 剩 下 的 参数 〈 假 设 它们 的 数据 类 型 需要 的 字 
节 不 超过 4 个 ) 存储 在 后 续 的 4 字 节 块 中 ， 所 以 参数 i 就 在 相对 于 sebp 偏 移 量 为 444;i 的 地 方 。 
较 大 的 参数 〈 比 如 结构 和 较 大 的 数字 格式 ) 需要 栈 上 更 大 的 区 域 。 

正如 前 面 讲 过 的 那样 ， 栈 向 低地 址 方向 增长 ， 而 栈 指针 sesp 指向 栈 顶 元 素 。 可 以 利用 
pushl 将 数据 存 人 栈 中 并 利用 popl 指令 从 栈 中 取出 。 将 栈 指针 的 值 减 小 适当 的 值 可 以 分 配 没 
有 指定 初始 值 的 数据 的 空间 。 类 似 地 ， 可 以 通过 增加 栈 指 针 来 释放 空 s 间 。 

3.7.2 ”转移 控制 
下 表 是 支持 过 程 调用 和 返回 的 指令 : 


call Label 过 程 调用 

call *OQOperand 过 程 调用 
leave | 为 返回 准备 栈 
ret 从 过 程 调用 中 返回 


call 指令 有 一 个 目标 ， 即 指明 被 调用 过 程 起 始 的 指令 地 址 。 同 跳 转 一 样 ， 调 用 可 以 是 直接 
的 ， 也 可 以 是 间接 的 。 在 汇编 代码 中 ， 直 接 调用 的 目标 是 一 个 标号 ， 而 间接 凋 用 的 目标 是 * 后 
面 跟 一 个 操作 数 指示 符 〈 使 用 3.4.1 节 中 的 格式 之 一 )。 

call 指令 的 效果 是 将 返回 地 址 人 栈 ， 并 跳 转 到 被 调用 过 程 的 起 始 处 。 返 回 地 址 是 在 程序 中 
紧 跟 在 call 后 面 的 那 条 指令 的 地 址 ， 这 样 当 被 调用 过 程 返回 时 ， 执 行 会 从 此 处 继续 。ret 指令 
从 栈 中 弹出 地 址 ， 并 跳 转 到 这 个 位 置 。 正 确 使 用 这 条 指令 ， 可 以 使 栈 做 好 准备 ， 栈 指针 要 指向 前 
面 call 指令 存储 返回 地 址 的 位 置 。 





























Ox080483e1 
Oxff9bc960 


0x08048394 
Oxff9bc95c 


0x080483dc 
Oxff9bc960 





0x080483e1 | 
a) 执行 call _b)call 执行 之 后 c) ret 执行 之 后 


图 3-22 call 和 ret 函数 的 说 明 。call 指令 将 控制 转移 到 一 个 函数 的 起 始 ， 
而 ret 指令 返回 到 call 指令 后 的 那 条 指令 
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图 3-22 说 明了 3.2.2 节 中 介绍 的 sum 和 main 函数 call 和 ret 指令 的 执行 情况 。 下 面 是 
这 两 个 函数 的 反 汇编 代码 的 节选 : 


Beginning of function sunm 
1 08048394 <sum>: 
2 8048394: 55 push  %ebp 


Return from function sum 


3 80483a4: c3 ret 


Cali to Sum from Main 
4 80483dc: ee8 b3 ff ff ff call 8048394 <sum> 
5 80483el: 83 c4 14 add $0x14,%esp 


从 这 个 代码 中 我 们 可 以 看 到 ， 在 main 函数 中 ， 地 址 为 0x080483dc 的 call 指令 调用 
函数 sum。 此 时 的 状态 如 图 3-22a 所 示 ， 指 明了 栈 指针 %esp 和 程序 计数 器 $eip 的 值 。call 
指令 的 效果 是 将 返回 地 址 0x080483el 压 人 栈 中 ， 并 跳 到 函数 sum 的 第 一 条 指令 ， 地 址 为 
0x08048394〈 图 3-22b)。 函 数 sum 继续 执行 ， 直 到 遇 到 地 址 为 0x080483a4 的 ret 指令 。 
这 条 指令 从 栈 中 弹出 值 0x080483e1， 然 后 跳 转 到 这 个 地 址 ， 就 在 调用 su 的 call 函数 之 后 ， 
继续 main 函数 的 执行 。 

用 leave 指令 可 以 使 栈 做 好 返回 的 准备 。 它 等 价 于 下 面 的 代码 序列 : 


moV1 hebp, hesp Set stack pointer to beginning of frame 
2 popl %ebp Restore saved hebp and set Stack ptr to end of calier's frame 


另外 ， 也 可 以 通过 直接 使 用 传送 和 弹出 操作 来 完成 这 种 准备 工作 。 如 果 函 数 要 返回 整数 或 指 
针 的 话 ， 寄 存 器 seax 可 以 用 来 返回 值 。 
攻 S 练习 题 3.30 下 面 的 代码 片断 常常 出 现在 库 函 数 的 编译 版 本 中 : 





1 call] next 
2 next: | 
3 popl peax 


A. 寄存 器 $eax 被 设置 成 了 什么 值 ? 

B. 解释 为 什么 这 个 调用 没有 与 之 匹配 的 ret 指令 。 

C. 这 段 代码 完成 了 什么 功能 ? 
3.7.3 ”寄存 器 使 用 惯例 

程序 寄存 器 组 是 唯一 能 被 所 有 过 程 共享 的 资源 。 虽 然 在 给 定时 刻 只 能 有 一 个 过 程 是 活动 的 ， 
但 是 我 们 必须 保证 当 一 个 过 程 〈 调 用 者 ) 调用 另 一 个 过 程 ( 被 调用 者 ) 时 ， 被 调用 者 不 会 覆盖 某 
个 调用 者 稍 后 会 使 用 的 寄存 器 的 值 。 为 此 ，IA32 采用 了 一 组 统一 的 寄存 器 使 用 惯例 ;所 有 的 过 
程 都 必须 遵守 ， 包 括 程 序 库 中 的 过 程 。 

根据 惯例 ， 寄 存 器 $eax、%Sedx 和 %ecx 被 划分 为 调用 者 保存 寄存 器 。 当 过 程 P 调 用 Q 
时 ，Q 可 以 覆盖 这 些 寄存 器 ， 而 不 会 破坏 任何 P 所 需要 的 数据 。 另 一 方面 ， 寄 存 器 Sebx、s%esi 
和 %edi 被 划分 为 被 调用 者 保存 寄存 器 。 这 意味 着 Q 必须 在 覆盖 这 些 寄存 器 的 值 之 前 ， 先 把 它们 
保存 到 栈 中 ， 并 在 返回 前 恢复 它们 ， 因 为 P (或 某 个 更 高 层次 的 过 程 ) 可 能 会 在 今后 的 计算 中 需 
要 这 些 值 。 此 外 ， 根 据 这 里 描述 的 惯例 ， 必 须 保持 寄存 器 $ebp 和 %esp。 

作为 一 个 示例 ， 考 虑 下 面 这 上 段 代 码 : 
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int P(int x). 


人 生 

3 Int y = x*x; 

4 int Z = QCy) ; 

5S return y + 2Z 

6 

过 程 P 在 调用 Q 之 前 计算 y， 但 是 它 必须 保证 Y 的 值 在 8 返回 后 是 可 用 的 。 有 以 下 两 种 方 
式 可 以 实现 : 


“ 可 以 在 调用 8 之前， 将 y 的 值 存放 在 自己 的 栈 帧 中 ; 当 & 返回 时 ， 过 程 就 可 以 从 栈 中 取 
出 y 的 值 。 换 句 话 说， 调用 者 P 保存 这 个 值 。 
。 可 以 将 y 的 值 保存 在 被 调用 者 保存 寄存 器 中 。 如 果 Q， 或 任何 其 他 Q 调用 的 程序 ， 想 使 用 
这 个 寄存 器 ， 它 必须 将 这 个 寄存 器 的 值 保存 在 栈 帧 中 ， 并 在 返回 前 恢复 该 值 〈 换 名 话说 ， 
被 调用 者 保存 这 个 值 )。 当 8 返回 到 P 时 ，y 的 值 会 在 被 调用 者 保存 寄存 器 中 ， 或 者 是 因 
为 寄存 器 根本 就 没有 改变 ， 或 者 是 因为 它 被 保存 并 恢复 了 。 
只 要 对 于 哪个 函数 负责 保存 哪个 值 有 一 致 的 约定 ， 上 述 两 种 惯例 都 能 工作 。 这 两 种 方法 
IA32 都 采用 ， 将 寄存 器 分 为 一 组 为 调用 者 保存 的 ， 另 一 组 为 被 调用 者 保存 的 。 
练习 题 3.31 在 GCC 为 一 个 C 过 程 产生 的 汇编 代码 的 前 部 有 下 面 这 段 代码 : 





1 subl $12，%esp 
2 movl hebx, (%esp) 

3 movl Wesi, 4(%esp) 

| moV1 hedi, 8(%esp) 
5 mov1 8(hebp) ， hebx 
6 movl 12(%ebp) , hedi 


7 movl (Webx) ，%esi 
8 movl (%edi), Weax 
9 moV] 16(%ebp) ， /pedx 
10 movl (Wedx) , %ecx 


我 们 看 到 ， 将 三 个 寄存 器 (Sebx:、 sesi 和 %edi) 保存 到 了 栈 中 (第 2 一 4 行 )。 程 序 会 修改 它们 ， 

以 及 另外 三 个 寄存 器 (Seax、Secx 和 $edx)。 在 过 程 的 结尾 ， 宕 存 器 $edi、%esi 和 s%ebx 的 值 被 

恢复 〈 没 有 显示 出 来 )， 而 其 他 三 个 寄存 器 就 保持 修改 后 的 状态 。 

请 解释 在 保存 和 恢复 寄存 器 状态 时 表现 出 来 的 明显 的 矛盾 。 
3.7.4 ”过程 示例 

考虑 图 3-23 中 定义 的 C 过 程 ， 其 中 函数 caller 包括 一 个 对 函数 swap_add 的 调用 。 图 
3-24 给 出 了 caller 调用 函数 swap_add 之 前 和 swap_adqd 正在 运行 时 的 栈 帧 结构 。 有 些 指 令 
访问 的 栈 位 置 是 相对 于 栈 指针 sesp 的 ， 而 另 一 些 访问 的 栈 位 置 是 相对 于 基地 址 指针 sebp 的 。 
这 些 偏 移 量 由 相对 于 这 两 个 指针 的 线 来 表示 。 


给 C 语言 初学 者 : 向 函数 传递 参数 
有 一 些 语言 ， 例 如 Pascal， 提 供 了 两 种 向 过 程 传递 参数 的 不 同方 式 传 值 ( 调 用 者 提供 
实际 的 参数 值 ) 和 传 引用 〔 调 用 者 提供 指向 值 的 指针 )。 在 C 语言 中 ， 所 有 的 参数 都 是 传 值 传递 
的 ， 但 是 我 们 可 以 显 式 地 产生 一 个 指向 值 的 指针 ， 并 将 这 个 指针 传递 到 过 程 ， 从 而 模仿 引用 参数 
的 效果 。caller 对 swap_add 的 调用 (图 3-23) 就 是 这 样 的 。 通过 传递 指向 argl 和 arg2 的 
名 针 ，caller 提供 了 一 种 让 swap add 修改 这 些 值 的 方法 。 
C++ 对 C 的 扩展 之 一 就 是 包括 了 引用 参数 。 
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， int swap_add (int *xp, int *yp) 


int 
.int 


*Xp = 
*yp 
return Xx 


t caller() 
"int argl:= 534; 
,int Aarg2 1057 ; 
int sum = swap_add (&argl， warg2); 


int diff = argl - arg2; 


return sum * diff; 





图 3-23 过 程 定义 和 调用 的 示例 
在 调用 swap_add 之 前 在 swap_add 体 中 


caller 


的 栈 帧 . 








帧 指针 $ebp 保存 的 sebp | ia dd 
栈 指 针 $esp 一 一 > 的 栈 巾 


图 3-24 caller 和 swap add 的 栈 帧 。 过 程 swap add 从 Pe 的 栈 帧 中 取出 它 的 参数 


caller 的 栈 帧 包括 局 部 变量 argl 和 arg2 的 存储 ， 其 位 置 相对 于 帧 指针 是 一 和 一 8。 这 
些 变 量 必须 存在 栈 中 ， 因 为 我 们 必须 为 它们 生成 地 址 。 接 下 来 的 这 段 汇编 代码 来 目 caller F 编 
译 过 的 编译 版 本 ， 说 明 它 它 如 何 调用 ap add: 


1 a 

2 pushl %hebp Save old %ebp 

3 movl hesp, hebp Set hebp as frame pointer 

4 subl $24,，%hesp Allocate 24 bytes on stack a 
5 movl $534, -4(hebp) Setr argl to 534 1 
6 movl $1057, -8(hebp) Set arg2 to 1057 

7 leal -8(hebp), heax Compute garg2 

8 .MmOV1,‘. Weax, 4(%esp).: Store on stack 

9 leal -4(%ebp), heax Compute garg! 

10 moV] heax, (%esp) Store on stack 


11 call swap_add ~ Call the swap.add functidn 
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这 段 代码 保存 了 sebp 的 一 个 副本 ， 将 sebp 设置 为 栈 帧 的 开始 位 置 (第 2 行 )。 然 后 将 栈 
指针 减 去 24， 从 而 在 栈 上 分 配 24 个 字 节 (回想 一 下 ， 栈 是 向 低地 址 生长 的 )。 将 argl 和 arg2 
分 别 初始 化 为 534 和 1057 (第 5 ~ 6 行 )， 计算 garg2 和 &azgl 的 值 并 存储 到 栈 上 ， 形 成 函数 
swap_add 的 参数 (第 7~10 行 )。 将 这 些 参数 存储 到 相对 于 栈 指针 偏 移 量 为 0 和 +4 的 地 方 ， 留 
待 稍 后 swap_add 访问 。 然 后 调用 swap_add。 分 配给 栈 帧 的 24 个 字 节 中 ，8 个 用 于 局 部 变量 ， 
8 个 用 于 向 swap_add 传递 参数 ， 还 有 8 个 未 使 用 。 


为 什么 GCC 分 配 从 不 使 用 的 空间 

GCC 为 caller 参数 的 代码 在 栈 上 分 配 了 24 个 字 节 ， 但 是 只 使 用 了 其 中 的 16 个 。 我 们 会 
看 到 很 多 这 样 明显 浪费 的 例子 。GCC 坚持 一 个 x86 编程 指导 方针 ， 也 就 是 一 个 函数 使 用 的 所 有 
栈 空间 必须 是 16 字 节 的 整数 倍 。 包 括 保 存 $ebp 值 的 4 个 字 节 和 返回 值 的 4 个 字 节 ，caller 
一 共 使 用 了 32 个 字 节 。 采 用 这 个 规则 是 为 了 保证 访问 数据 的 严格 对 齐 (alignment)。 我 们 会 在 
3.9.3 节 中 解释 遵循 对 齐 规则 的 原因 ， 以 及 如 何 实现 。 


swap_add 编译 过 的 代码 有 三 个 部 分 :“ 建 立 ” 部 分 ， 初 始 化 栈 帧 ;“ 主 体 ” 部 分 ， 执 行 过 
程 的 实际 计算 ;“ 结 束 ” 部 分 ， 恢 复 栈 的 状态 ， 以 及 过 程 返 回 。 

下 面 是 swap_add 的 建立 代码 。' 回 想 一 下 ， 在 到 达 代 码 的 这 个 部 分 之 前 ，call 指令 已 经 将 
返回 地 址 压 人 栈 中 。 


] SVWap_add : 加 
2 pushl pebp Save old %ebp 

movl hesp, %hebp Set %ebp as frame pointer 
4 pushl  %ebx .Save %ebx 


晴 数 swap_add 需要 用 寄存 器 sebx 作为 临时 存储 。 因为 这 是 一 个 被 调用 者 保存 寄存 器 ， 
它 会 将 旧 值 压 人 栈 中 ， 这 是 栈 帧 建立 的 一 部 分 。 此 时 ， 梭 的 状态 如 图 3-24 的 右边 所 示 。 寄 存 
器 $ebp 已 经 移动 了 ， 作 为 swap_add 的 帧 指针 。 | 

下 面 是 swap_add 的 主体 代码 : 


5 movl 8 (hebp), edx Get xp 

6 movl 12(%ebp) ，Yecx Get yp 

7 movl (Xedx), %ebx : Get x 

8 movl (%ecx) ，%eax Get 7 加 

9 movl %eax, (%edx) BOPe yi xp 

0 movl Webx, (Xecx). .Store x at yp 
IT addl kebx, heax ~ Return value = x+ 了 


这 人 到 从 caller 的 栈 帧 中 取出 它 的 参数 。 因为 帧 指针 已 经 移动 ， 这 些 参数 的 位 置 也 从 相对 
于 sesp 的 旧 值 +4 和 0 的 位 置 移 到 了 相对 于 sebp 的 新 值 +12 和 +8 的 位 置 。 注意 ， 变量 x 和 y 
的 和 存放 在 寄存 器 seax 中 作为 返回 值 传递 。 
下 面 是 swap_add 的 结束 代码 : 


12 popl %ebx hestore %ebx 
13 popl hebp Restore %ebp 
14 ret Return 


这 有 段 代码 恢复 寄存 器 $ebx 和 sebp 的 值 ， 同时 也 重新 设 定 模 指 针 使 它 人 指向 存 情 的 返回 值 这 样 
ret 指令 就 可 以 将 控制 转移 回 caller。 | 
下 面 的 caller 中 的 代码 紧 跟 在 调用 swap_add 的 指令 后 面 : 
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12 mov]l -4(%ebp) ，%edx 
13 subl -8(%ebp) , hedx 
14 imull]l %edx, %eax 

15 leave 

16 ret 


为 了 计算 daiff， 这 段 代 码 从 栈 中 取出 argl 和 arg2 的 值 ， 并 将 寄存 器 $eax 当 作 从 swap_add 的 
返回 值 。 可 以 观察 到 ，1leave 指令 的 使 用 在 返回 前 ， 既 重 置 了 栈 指针 ， 也 重 置 了 帧 指针 。 我 们 在 代 
码 示例 中 已 经 看 到 ，GCC 产生 的 代码 有 时 候 会 使 用 leave 指令 来 释放 栈 帧 ， 而 有 时 会 使 用 一 个 或 者 
两 个 pop1 指令 。 两 种 方法 都 可 行 ， 对 于 哪 一 种 更 好 mtel 和 AMD 的 指导 意见 也 在 不 断 变化 。 

从 这 个 示例 我 们 可 以 看 到 ， 编 译 器 根据 一 组 很 简单 的 0 参数 在 
栈 上 传递 给 函数 ， 可 以 从 栈 中 用 相对 于 sebp 的 正 偏 移 量 (+8，+12，…) 来 访问 它们 。 可 以 用 
push 指令 或 是 从 栈 指 针 减 去 偏 移 量 来 在 栈 上 分 配 空间 。 在 返回 前 ， 机 数 必须 将 栈 恢 复 到 原 始 条 
件 ， 可 以 恢复 所 有 的 锌 调用 者 保存 寄存 器 和 sebP， 并 且 重 置 sesp 使 其 指向 返回 地 址 。 为 了 程 
序 能 够 正确 执行 ， 让 所 有 过 程 都 遵循 一 组 建立 和 恢复 栈 的 一 致 惯例 是 很 重要 的 。 
训练 习题 3.32 人 C 函数 fun 具有 如 下 代码 体 : 

i X-C ; 

执行 这 个 函数 体 的 IA32 代码 如 下 : 


1 movsbl] 12(%ebp) ,%edx 

2 movl 16(%ebp) ，%eax 

: movl edx, (%eax) 
movswl 8(%ebp),%eax 





5 movV1 20(%ebp) ，%edx 
6 subl %eax, Wedx 
7 movl %edx, %eax 


写 出 函数 fun 的 原型 ， 给 出 参数 P、d、x 和 c 的 类 型 和 顺序 。 
练习 题 3.33 给 定 C 函数 如 下 ; | 





1 int proc(void) 

2 {1{ 

3 int x,y; 

| scanf ("%x x", &y, &x); 
5 return x-y; 

6 } 
GCC 产生 以 下 汇编 代码 : 

1 proc: 

2 pushl Webp 

3 movl hesp, %ebp 

4 subl $40 ，%esp 

5 leal -4(hebp) ,heax 

6 movl *. ‘%eax, 8(%esp) 

7 leal -8(%ebp) ， %eax 

8 movl %eax, 4(%esp) 

movl $.LCO, (%esp) Pointer to string "Xx 和 
10 call scanf 
Diagram stack frame at this point 

11 movl -4(%ebp), heax 
12 subl -8(%ebp), %eax 
13 leave 


14 ret 
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假设 过 程 proc 开始 执行 时 ， 寄 存 器 的 值 如 下 : 


河中 | 





Sesp 0x800040 
”如果 proc 调 用 scanf (第 10 行 )， 而 scanf 从 标准 输入 读 入 值 0x46 和 0x53。 «gx Sx” 
;存放 在 存储 器 位 置 0x300070 处 。 
A. 第 3 行 %Sebp 的 值 被 设置 成 了 多 少 ? 
.第 4 行 esp 的 值 被 设 轩 成 了 多 少 ? 
“CC. 局 部 变量 x 和 Yy 的 存放 地 址 是 什么 
a 请 包括 尽 可 能 乡 的 关于 入村 元 素 的 地 址 和 内 容 的 信息 
EE. 指出 proc 未 使 用 的 术 帧 区 域 。 
3 7.3 递归 过 程 
上 一 节 描 述 的 栈 和 链接 质 例 使 得 过 程 能 够 递归 地 调用 它们 自身 。 因为 每 个 调用 在 栈 中 都 有 它 它 
自己 的 私有 空间 ， 多 个 未 完成 调用 的 局 部 变量 不 会 相互 影响 。 此 外 ， 栈 的 原则 很 自然 地 提供 了 适 
当 的 策略 ， 当 过 程 被 调用 时 分 配 局 部 存储 ， 当 返回 时 释放 存储 。 


int rfact(int n) 
{ 
int result; 
if (n <= 1) 
result 1, 
else 
result = n * rfact(n-1); 
return result; 





图 3-25 递归 的 阶乘 程序 的 C 代码 


Argument: n at Webp+8 

Registers: n in webx, result in heax 

rfact: | 
pushl %ebp Save old %ebp 
movl %esp, %ebp Set %ebp as frame pointer 
pushl %ebx Save callee save register hebx 
subl $4, %esp Allocate 4 bytes on stack 
movl 8(%ebp) ，%ebx Get n 
movl $1, Weax result = 1 
cmpl $1, hebx Compare n:1 
jle .L53 Tf <=, goto done 
leal -1(%ebx), heax Compute n-1 
movl %eax, (hesp) Store at top of stack 
call rfact Call rfact(n-1) 


imull %ebx, %heax Compute result = return Value *n 
.L53: done: |. 

add]l $4, hesp Deallocate 4 bytes from stack 

popl hebx Restore %ebx 

popl hebp Restore %ebp 

ret Return result 


图 3-26 ”图 3-25 中 递归 的 阶乘 程序 的 汇编 代码 
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图 3-25 是 递归 的 阶乘 函数 的 C 代码 。GCC 产生 的 汇编 代码 如 图 3-26 所 示 。 我 们 检查 一 证 
当 用 参数 n 来 调用 时 ， 机 器 代码 会 如 何 操作 。 建 立 代码 (第 2 ~ 5 行 ) 创建 一 个 栈 帧 ， 其 中 包 
含 sebp 的 旧 值 、 保 存 的 被 调用 者 保存 寄存 器 sebx 的 值 ， 以 及 当 递归 调用 自身 的 时 候 保存 参数 
的 4 个 字 节 ， 如 图 3-27 所 示 。 它 用 寄存 器 sebx 来 保存 过 程 参数 n 的 值 (第 6 行 )。 它 将 寄存 
器 seax 中 的 返回 值 设置 为 1， 预期 n < 1 的 情况 ， 它 就 会 跳 转 到 完成 代码 。 


"| 调用 过 程 的 栈 帧 


rfact 的 栈 帧 





了 一 


图 3-27 递 扫 的 阶乘 函数 的 本 由 这 是 递归 调用 之 前 的 帧 状态 


对 于 递归 的 情况 ， 计 算 n-1， 将 这 个 值 存储 在 栈 上 ， 然 后 调用 函数 自身 (第 10 ~ 12 行 )。 
在 代码 的 完成 部 分 ， 我 们 可 以 假设 1) 寄存 器 seax 保存 着 (n-1) ! 的 值 ; 2) 被 调用 保存 寄存 
器 sebx 保存 着 参数 n。 因 此 ， 将 这 两 个 值 相 乘 (第 13 行 ) 得 到 该 函数 的 返回 值 。 

对 于 这 两 种 情况 一 一 终止 条 件 和 递归 调用 ， 代码 都 会 继续 到 完成 部 分 《第 15 ~ 17 行 )， 凌 
复 栈 和 被 调用 者 保存 寄存 器 ， 然 后 再 返回 。 

我 们 可 以 看 到 递归 调用 一 个 函数 本 身 与 调用 其 他 函数 是 一 样 的 。 栈 规则 提供 了 一 种 机 制 ， 每 
次 函数 调用 都 有 它 自 己 私有 的 状态 信息 (保存 的 返回 位 置 、 栈 指针 和 被 调用 者 保存 寄存 器 的 值 ) 
存储 。 如 果 需 要 ， 它 还 可 以 提供 局 部 变量 的 存储 。 分 配 和 释放 的 栈 规则 很 自然 地 就 与 函数 调用 ~ 
返回 的 顺序 匹配 。 这 种 实现 函数 调用 和 返回 的 方法 甚至 对 于 更 复杂 的 情况 也 适用 ， 包括 相互 递归 
调用 〈 例 如 ， 当 过 程 P 调用 Q，Q 再 调用 P)。 

这 绒 练习 题 3.34 一 个 具有 通用 结构 的 C 函数 如 下 : 


int rfun(unsigned X) 二 
if ( 








TObUTH 
unsigned.nx =. 
int rv = rfun(nx); 
return _ 








.3} . . be 
GCC 产生 如 下 汇编 代码 (省 略 了 建立 和 完成 代码 ) : 


movl 8(hebp) , %ebx 


1 
2 . movl $0, %eax 

3 test] hebx, %hebx 

4 je .1L3 

5 movl hebx, heax 

6 shrl weax Shift right by 1 
7 movl heax, (%esp) 

8 call rfun 

9 movl Webx, %edx 

10 andl $1, hedx 

11 leal (%edx ,Xeax) , Weax 


12 .L3;: 
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A. rfun 存储 在 被 调用 者 保存 寄存 器 sebx 中 的 值 是 什么 ? 
“3.B. 填写 上 述 C 代码 中 缺失 的 表达 式 。 
.-C, 用 自然 语言 描述 这 段 代码 计算 的 功能 。 


3.8“ 数组 分 配 和 访问 


C 语言 中 的 数组 是 一 种 将 标量 数据 聚集 成 更 大 数据 类 型 的 方式 ， C 语 言 实现 数组 的 方式 非常 
简单 ， 因 此 很 容易 翻译 成 机 器 代码 。C 语言 一 个 不 同 寻常 的 特点 是 可 以 产生 指向 数组 中 元 素 的 指 
针 ， 并 对 这 些 指针 进行 运算 。 在 机 器 代码 中 ， 这 些 指针 会 被 翻译 成 地 址 计算 。 

优化 编译 器 非常 善于 简化 数组 索引 所 使 用 的 地 址 计算 。 不 过 这 使 得 C 代码 和 它 机 器 代码 的 
翻译 之 间 的 对 应 关系 有 些 难以 理解 。 
3.8.1 基本 原则 

A 


TT ALN]; 


它 有 两 个 效果 。 首 先 ， 它 在 存储 器 中 分 配 一 个 工 - NW 字 节 的 连续 区 域 ， 这 里 工 是 数据 类 型 的 大 
小 (单位 为 字 节 )， 用 x 来 表示 起 始 位 置 。 其 次 ， 它 引入 了 标识 符 A ; 可 以 用 A 作为 指向 数组 开 
头 的 指针 ， 这 个 指针 的 值 就 是 xA。 可 以 用 从 0 到 -1 之 间 的 整数 案 引 来 访问 数组 元 案 。 数组 元 
索 i 会 被 存放 在 地 址 为 x。+ 工 :i 的 地 方 。 
。 让 我 们 来 看 看 下 面 这 样 的 声明 ，， 
char ”Ar[i2] ; 
char  *B[8]; 
be Co]; 
:double *D[5]; 


。 这 些 声 明 产生 的 数组 带 下 列 参数 : 


十 
C 
D 


12 
32 
8 
4 


数组 A 由 12 个 单字 节 (char) 元 素 组 成 。 数 组 C 由 6 个 双 精度 浮 点 值 组 成， 每 个 值 需要 8 
个 字 节 。B 和 D 都 是 指针 数组 ， 因 此 每 个 数组 元 素 都 是 4 个 字 节 。 

IA32 的 存储 器 引用 指令 可 以 用 来 简化 数组 访问 。 例 如 ， 假 设 民 是 一 个 int 型 的 数组 ， 并 且 我 
们 想 计算 E[i]， 在 此 ，E 的 地 址 存放 在 寄存 器 sedx 中 ， 而 i 存放 在 寄存 器 secx 中 。 然 后 ， 指 令 


movl1 (Sedx, Secx,4),$Seax 


会 执行 地 址 计算 x + 4i， 读 这 个 存储 器 位 置 的 值 ， 并 将 结果 存放 到 坷 丰 吕 heax 中 允许 的 缩放 
因子 1、2、4 和 8 覆盖 了 所 有 基本 简单 数据 类 型 的 大 小 。 
攻守 练习 题 3.35 考虑 下 面 的 声明 : 








short S[7] ; 
short *T [3] ; 
short **U[6] ; 


long double VI[8]; 
long double *V[4}; 
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填写 下 表 ， 描 述 每 个 数组 的 元 素 大 小 、 整 个 数组 的 大 小 以 及 元 素 i 的 地 址 : 














”元素 大 小 | 整个 数组 的 大 小 | 起 始 地 址 | 元素; 
9 a 

5 | 

| 

”| 

sh 


3.8.2 指针 运算 ， 外 

C 语言 允许 对 指针 进行 运算 ， 而 计算 出 来 的 值 会 根据 该 指针 引用 的 数据 类 型 的 大 小 进行 人 
缩 。 也 就 是 说 ， 如 果 p 是 一 个 指向 类 型 为 了 的 数据 的 指针 ，P 的 值 为 x,， 那 么 表达 式 p+i 的 值 
为 x,+L'i,， 这 里 工 是 数据 类 型 了 的 大 小 。 : 

” 单 操 作 数 的 操作 符 & 和 * 可 以 产生 指针 和 间接 引用 指针 。 也 就 是 ， 对 于 一 个 表示 某 个 对 象 
的 表达 式 Expr，&Expr 是 给 出 该 对 象 地 址 的 一 个 指针 。 对 于 一 个 表示 地 址 的 表达 式 AExpr， 
*AExpr 是 给 出 该 地 址 处 的 值 。 因 此 ， 表 达 式 Expr. 与 *&Expr 是 等 价 的 。 可 以 对 数组 和 指针 应 
用 数组 下 标 操作 。 数 组 引用 A[i] 人 0 Cn i 个 数组 元 素 的 地 址 ， 然 后 访 
问 这 个 存储 器 位 置 。 

扩展 一 下 前 面 的 例子 ， 假 设 整 型 数组 E 的 起 始 地 址 和 整数 索引 i 分 别 存放 在 寄存 器 $edx 
和 secx 中 。 下 面 是 一 些 与 E 有 关 的 表达 式 。 人 了 每 个 表达 式 的 汇编 代码 实现 ， 结 果 存 
放 在 寄存 器 seax 中 。 


mov] %edx ,%eax 
Ee i el Mi mov1 (Xedx) ,%eax 
E[i] -a M[xE + 4i] movl1 (%edx,%ecx,4),%eax 


gE2] | int*.| xE+8 -| ‘leal 8(%edx),Xeax : .i 
E+i~1 i XE+4i—-4 .| ieal -4(%edx,%ecx,4), ea 
. *(E+i-3) 3 MU mov] -12(%edx， Xecx， 4) ， 4 
| [sec it [i | mov1 Xecx， Xeax 





在 这 些 例子 中 1eal 指令 用 来 产生 地 址 ， 而 mov1 用 来 引用 存储 器 除了 第 一 种 和 最 后 一 
种 情况 ， 前 者 是 复制 一 个 地 址 ， 而 后 者 是 复制 索引 )。 最 后 一 个 例子 表明 我 们 可 以 计算 同一 个 数 
所 结构 中 的 两 个 指针 之 差 ， 结 果 值 是 除 以 数据 类 型 大 小 后 的 什 。 
宇和 练习 是 3.36 假设 short 短 整 型 数组 S 的 地 址 和 整数 索引 i 分 别 存放 在 寄存 器 $edx 和 secx 中 。 对 
下 面 每 个 表达 式 ， 给 出 它 的 类 型 、 值 表达 式 和 汇编 代码 实现 。 如 果 结果 是 指针 的 话 ， 要 保存 在 寄存 
器 %eax 中 ; 如果 是 短 整 数 ， 就 保存 在 寄存 器 元 素 8ax 中 。 





ST[4*i+1] 





Se 获 套 的 数组 
- 当 我 们 创建 数组 的 数组 时 ， 数 组 分 配 和 引用 的 一 般 原 刚 也 是 成 立 的 。 例如 声明 
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int A[5][3]， 


等 价 于 下 面 的 声明 


typedef int row3_t[3] ; 
row3_t A[5] ; 


数据 类 型 row3- .被 定义 为 一 个 3 个 整数 的 数组 ， 数组 A 包含 5 个 这 样 的 元 素 ， 每 个 元 素 需 要 
12 个 字 节 来 存储 3 个 整数 。 整个 数组 的 大 小 就 是 4XSX3=60 字 节 。 

数组 A 还 可 以 看 成 一 个 5 行 3 列 的 二 维 数组 ， 用 Ar0] [0] 到 A[4] [21 来 引用 。 数组 元 素 
在 存储 器 中 按照 “ 行 优先 ”的 顺序 排列 ， a 元 素 ， 可 以 写作 A[0]， 后 商品 有 
We (A[1] )， 以 此 类 推 。 


[ 瑟 下 莹 十 是 
ALO] [0] 

.ALOlLt] | 
A[OJ] [2] 
A[1] [0] | 
A[1] {1] 
A[1] {2] | 
A[2] [0] 
A[21 [1] 
A[2] [2] 
“A[3] [0] 
A[3] [1] 
~ AL3] [2] 
A[4] [0] 
| AH 
A[4] [2] 



















这 种 排列 顺序 是 巾 套 声明 的 结果 。 将 A 看 作 一 个 有 5 个 元 素 的 数组 ， 每 个 元 素 都 是 3 个 int 的 
数组 ， 首 先是 A[0]， 然后 是 RATIL] ， 以 此 类 推 。 

要 访 问 多 维 数组 的 元 素 ; 编译 器 会 以 数组 起 始 为 基地 址 ， (可 能 需要 经 过 伸缩 的 ) 偏 移 量 为 
索引 ， 产生 计算 期 望 的 元 素 的 偏 移 量 然后 使 用 某 种 MOV 指令 。 通 常 来 说 ， 对 于 一 个 数组 声明 
如 下 : \ z 
二 DrR Rc; z z 
它 的 数组 元 素 D[i] [ji] 的 存储 器 地 址 为 J sy EU 
_&D[i] [j] =xp + L(C i+4)) | (3- 1) 
这 里 ， L 是 数据 类 型 ， 7 以 字 节 为 单位 的 大 小 。 作为 一 个 示例 ， 考虑 前 面 定义 的 5X3 的 整 型 数组 
A。 假 设 x,、i 和 7 分 别 位 于 相对 于 sebp 偏 移 量 为 8、12 和 16 的 地 方 。 然 后 ， 可 以 用 下 面 的 代 
码 将 数组 元 素 A[i] [j] 复制 到 寄存 器 $eax 下 ， 


A at %ebp+8，i at Webp+12,j at Webp+16 


1 movl 12(%ebp) ， heax Get 1 

2 leal (Weax ,heax,2), heax Compute 3*i 

3 movl 16(%ebp), hedx Get i 

4 sall $2, %edx Compute j*4 

5 addl 8(hebp), hedx 3 Compute xi 十 4 六 . 

6 movl (%edx ,heax,4), heax Read from Mlxs+4)+ 127] 


这 段 代 码 计算 元 素 的 地 址 为 za+4j+12; = xa+4(3 计 力 ， 它 使 用 移 位 、 加 法 和 伸缩 的 组 合 来 各 免 开销 
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更 大 的 乘法 操作 。 
区 对 练习 题 3.37 考虑 下 面 的 源 代码 ， 其 中 MM 和 NN 是 用 #define 声明 的 常数 : 


int mat1 [M] [N] ; 
int mat2[N] [M] ; 





1 

2 

4 int sum_element(int i, int j) { 

5 return mat1l[i] [j] + mat2[j] [i]; 
6 


} 


在 编译 这 个 程序 中 ，GCC 产生 如 下 汇编 代码 : 


i at %ebp+8，j at %ebp+12 
movl 8(hebp), %ecx 
movl 12(%ebp) , hedx 
leal 0(,%ecx,8), %eax 
subl hecx, Wheax 
addl Wedx, Weax 
leal (%edx ,%edx ,4) , hedx 
addl Wecx, %edx 
movl mat1i(,%eax,4), %eax 
addl mat2(,%edx,4), %eax 


DOD CN NN 


运用 你 的 逆向 工程 技能 ， 根 据 这 段 汇编 代码 ， 确 定 M 和 和 的 值 。 
3.8.4 定 长 数组 
C 语言 编译 器 能 够 优化 定 长 多 维 数组 上 的 操作 代码 。 例 如 ， 假设 我 们 用 各 下 方式 将 数据 类 
fix matrix 声明 为 16X 16 的 整 型 数组 : 


1 #define N 16 本 
2 typedef int fix _matrix [N] [N]; 


(这 个 例子 说 明了 一 个 很 好 的 编码 习惯 。 当 程序 要 用 一个 常数 作为 数组 的 维度 或 者 缓冲 区 的 大 小 
时 ， 最 好 通过 #define 声明 将 这 个 常数 与 一 个 名 字 联 系 起 来 ， 然 后 在 后 面 一 直 使 用 这 个 名 字 代 
蕉 常数 的 数值 。 这 样 一 来 ， 如 果 需 要 修改 这 个 值 ， 只 简单 地 修改 这 个 #define 声明 就 可 以 了 。) 
图 3-28a 中 的 代码 根据 公式 并 ooj<w 4j27 计 算 和 矩阵 RAR 和 B 乘积 的 元 素 i, kt。C 语言 编译 器 产生 
的 代码 (我 们 再 反 汇 编 成 C)， 如 图 3-28b 函数 fix_prod_ele_opt 所 示 。 这 有 段 代码 包含 很 多 
聪明 的 优化 。 它 发 现 循环 只 会 访问 矩阵 A 的 i 行 元素 ， 所 以 它 创 建 了 一 个 局 部 指针 变量 ， 命 名 为 
Arow， 提 供 对 矩阵 第 i 行 的 直接 访问 。Arow[j] 被 初始 化 为 &A[i] [0]， 所 以 可 以 通过 
Arow[j] 来 访问 矩阵 元 素 A[i] [j] 。 它 还 发 现 循环 会 按照 B[0] [k] ,BI[1] [k],…,B[15] [k] 
的 顺序 访问 矩阵 B 的 元 素 。 这 些 元 素 在 存储 器 中 占 的 位 置 从 矩阵 元 素 B[0] [k] 的 地 址 开始 ， 之 
间 间 隔 64 个 字 节 。 因 此 程序 可 以 用 指针 变量 Bptr 来 访问 这 些 连 续 的 位 置 。 在 C 语言 中 ， 表 明 
这 个 指针 被 增加 N (16)， 但 是 实际 的 地 址 是 增加 4X 16 = 64。 

下 面 给 出 的 是 这 个 循环 的 实际 汇编 代码 。 我 们 看 到 循环 中 的 4 个 变量 (Arow、Bptr、j 和 
result) 都 保存 在 寄存 器 中 。 


Registers: Arow in resi, Bptr in Kecx, 1} in Yedx, resuit in Yebx . 


1 .L6: 1oop: 

2 movl (pecx) , heax Get *Bptr 

3 imull] (hesi,%edx,4), %eax Multiply by Arow[{j] 
4 addl  - heax, hebx* -| hdd to result 

5 


add1 $1, %edx Increrment 3 
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6 addl $64, Wecx Add 64 to Bptr 
cmpl $16, %edx . : Compare j:16 
8 jne .L6 If i=, goto loop 


正如 看 到 的 那样 ， 在 循环 中 ， 寄 存 器 secx 是 被 增加 64 (第 6 行 )。 机 器 代码 认为 每 个 指针 
都 指向 的 一 个 字 节 地 址 ， 因 此 在 编译 指针 运算 中 ， 每 次 都 应 该 增加 底层 数据 类 型 的 大 小 。 
臣 叶 练习 题 3.38 下 面 的 C 代码 将 定 长 数组 的 对 角 线 上 的 元 素 设置 为 val : 





1 /* Set all diagonal elements to val */ 

2 void fix_set_diag(fix_matrix A, int val) { 
3 int i; 
4 for (i = 0; i < N; i++) 

5 A[i] [i] = val; 

6 上 


当 编 译 时 ，GCC 产生 如 下 汇编 代码 : 
A at Webp+8, val at %ebp+12 
movV] 8(%pebp) ， hecx 


1 

2 movl 12(%ebp), hedx 

3 movl $0, heax 

4 .L14: 

5 movl hedx, (Wecx ,heax) 
6 add1] $68, /peax 

7 cmpl $1088, %eax 

8 jne :L14 


由 C 代码 程序 fix-set-diag-opt, 参考 这 段 汇编 代码 中 所 使 用 的 优化 ， 风格 与 图 3 3-28b 中 的 代码 一 
致 。 使 用 含有 参数 六 的 表达 式 ， 而 不 是 整数 常量 ， 使 得 如 果 重 新 定义 了 NV， 你 的 代码 人 角 能 够 正确 地 工作 。 


/* Compute i,k of fixed matrix product */ 

int fix_prod_ele Cs matrix A, fix_matrix B, :int i, int k) { 
int j; i - 
int result 


Cs 


ei = 0; Jj < N; j++) 
result += A[i] [j] * B[j][k]; 


1 
2 
4 
6 
7 
ee 


return result:; 


eh 
©O 





23900 下 i 9 原始 的 C 代 码 


/* Compute i,k of fixed matrix product #/ 
int fix_prod_ ele _opt(fix-_ matrix A， fix _matrix B ， int i, int k) t 
int *Arow = &A[i] [0]; | , 
int *Bptr = &B[O] [k] ; 
result = 0; . 
] ; 


(j = 0; j != N; j++) { 
result += Arow[j]j * *Bptr; 
Bptr += N; 


[oe 


return result; 





b) 优化 过 的 C 代码 
图 3-28 原 代码 的 和 优化 过 的 代码 ，i 六 代码 计 算 定 长 数组 的 矩阵 科 积 的 元 素 编译 器 会 自动 完成 这 文 些 优化 


菇 3 草 在 序 失 机 器 级 表示 。 163 


3.8.5 变 长 数组 人 

“历史 上 ， CC 语言 只 支持 在 编译 时 就 能 确定 大 小 的 多 维 数组 - (对 于 第 一 _ 维 可 能 有 些 例外 )， 程 
序 员 需要 变 长 数组 时 ， 不 得 不 用 malloc 或 calloc 这 样 的 函数 为 这 些 数组 分 配 存储 空间 ， 而 
且 不 得 不 显 式 地 编码 ， 用 行 优先 索引 将 多 维 数 组 映 鞋 到 一 维 的 数组 ， 如 公式 (3-1) 所 示 。ISO 
C99 引入 了 一 种 能 力 , 允许 数组 的 维度 是 表达 式 ， i 并 且 最 近 的 
GCC: 版 本 支持 ISO C99 中 关于 变 长 数组 的 大 部 分 规则 。 

. 在 变 长 数组 的 C 版 本 中 ， 我 们 将 一 个 数组 声明 为 int. Alexbz1] el 它 可 以 作为 一 
个 局 部 变量 ，- 也 可 以 作 一 个 函数 的 参数 ，. 然 后 在 遇 到 这 个 声明 的 时 候 ,* 通 过 对 表达 式 expr1 和 
人 因此 ， 例 如 要 访问 nXn 数组 的 元 素 i,j， 我 们 可 以 写 一 个 如 王 


1 int var-ele(int n, int Alnj[n], int i, int j) { 
2 return A[i] [j]; | 


参数 n 必须 在 参数 A[n] [n] 之 前 ， 这 样 函数 就 可 以 在 肖 到 这 个 数组 的 时 候 计算 出 数组 
维度 。 有 
GCC 为 这 个 引用 函数 产生 的 代码 如 下 所 示 : 


nat MebpfB9，4 at Webp+12, i at hebp+16, } at hebp+20 


1 movl-: 8{%hebp),- heax  - ~ Get nan - . 

2 -sall . $2,.%eax i Compute 4d*n  .. 

3 movl heax, hedx Copy dx*n 

4 imull 1i6(%ebp), %edx Compute Axnx*i 

5 movl 20(%ebp), %eax  . Get i 
6 sall $2, heax i .Compute 4xj.. ,i 
7 addl ”12(%ebp) ， eax Compute x 十 4 + a 
8 .movl . ‘(eax,%edx), eax’ . ~ Read from 4 十 生 闪 (tit 


正如 注释 所 示 ， 这 段 代 码 计 算 元 素 i,j 的 地 址 为 za+4( n :iti )。 这 个 计算 类 似 于 定 长 数组 的 地 址 
计算 ,不同 点 是 1〉 由 于 加 上 了 参数 n， 参 数 在 栈 上 的 地 址 移动 了 .; 2) :用 了 乘法 指令 计算 ni 
(第 4 行 ), 而 不 是 用 leal 指令 计算 3i。: 因 此 引用 变 长 数组 只 需要 对 定 长 数组 做 一 点 儿 概括 。 动 
态 的 版 本 必须 用 乘法 指令 对 i 伸展 倍 ， 而 不 可 用 王 系列 的 黎 亿 和 吉 法 。 Be 乘法 
会 招致 严重 的 性 能 处 罚 ， 但 是 在 这 种 情况 下 不 可 避免 。.，. : 

在 一 个 循环 中 引用 变 长 数组 时 ， 编译 器 常常 可 以 利用 访问 模式 的 规律 性 来 优化 索引 的 计算 。 
例如 ， 图 3-29 给 出 的 C 代码 ， 它 计算 两 个 nXn 矩阵 A 和 .B 乘积 的 元 素 , 上。 编译 器 产生 的 代码 
类 似 于 定 长 数组 的 代码 。 实 际 上 ， 这 个 代码 与 图 3-28b 的 代码 非常 类 似 ， 除了 每 次 循环 i 它 对 
Bptr (指向 元 素 BI [j] [k] 的 指针 ) 伸缩 变量 值 ; n, 而 不 是 固定 的 信 N。 z 

下 面 是 var_prod_ele 循环 的 汇编 代码 : 


n stored at Webp+8 
Registers: Arow in Wesi, Bptr in hecx, 7 in %edx, 
result in %ebx, hedi hoilds 4x*n 


1 .L30: loop: 
2 movl (Xecx) , Weax Get *Bptr 
4 imull (Wesi,hedx,4), %eax Muiltiply by Arow[ ji] 
4 addl heax, hebx Add to result 
5 addl $1, hedx Increment 3 
6 addl wedi, hecx 本 Adad dxn to Bptr 
py cmpl  %edx, 8(%ebp) 7 Compare n:j 


jg .L30 Tf >, goto loop 
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我 们 看 到 程序 既 使 用 了 伸缩 过 的 值 4 〈 寄 存 器 sedi ) 来 增加 Bptr， 也 使 用 了 存储 在 相对 
于 $ebp 偏 移 量 为 8 处 的 的 实际 值 来 检查 循环 的 边界 。C 代码 中 并 没有 体现 出 需要 这 两 个 值 ， 
但 是 由 于 指针 运算 的 伸缩 ， 才 使 用 了 这 两 个 值 。 每 次 循环 中 ， 代 码 从 存储 器 中 取出 的 值 ,. 检查 
循环 是 否 终止 〈 第 7 行 )。 这 是 一 个 寄存 器 溢出 : (Iegister spilling〉 的 例子 : 没有 足够 多 的 寄存 器 
来 保存 需要 的 临时 数据 ， 因 此 编译 器 必须 把 一 些 局 部 变量 放 在 存储 器 中 。 在 这 个 情况 下 ,. 编译 器 
选择 把 n 游 出 ， 因 为 它 是 一 个 “只 读 ” 的 值 一 一 在 循环 中 不 会 改变 它 的 值 。 因 为 IA32 处 理 器 的 
寄存 器 数量 太 少 ， 必 须 常 常 将 循环 值 溢出 到 存储 器 中 。 通 常 ， 读 存储 器 完成 起 来 比 写 存 储 器 要 容 
易 得 多 ， 因 此 将 只 读 变量 溢出 是 比较 合适 的 。 关 于 如 何 改进 这 段 代码 以 避免 寄存 器 溢出 ， 请 参见 
家 庭 作业 3.61。 ee 8 a 


/* Compute i,k of variable matrix product */ 

int var_prod_ele(int n, int A[n] [n] ，int Bl[n] [n] ， int i int k) { 
int j; 
int result = 0 


for (j = 0; j < n; j++) 
result += A[i] [j] * B[j] [x] ; 


return result; 


} 
3-29 计算 变 长 数组 的 矩阵 乘积 的 元 素 k。 编 译 器 执行 的 优化 类 似 于 对 定 长 数组 的 优化 


3.9 异 质 的 数据 结构 


C 语言 据 供 了 两 种 结合 不 同 关 型 的 对 象 来 创建 数据 关 型 的 机 制 ， 结构 〈structure)， 用 关键 字 
struct 声明 ， 将 多 个 对 象 集合 到 一 个 单位 中 ; 联合 (union)， 用 关键 字 union 声明 ， 人 允许 用 
UR 
3.9.1 结构 

C 语言 的 struet 声明 创建 一 个 数据 类 型 ， 将 可 能 不 同类 型 的 对 象 聚 合 到 一 个 对 象 中 。 结构 
的 各 个 组 成 部 分 用 名 字 来 引用 。 类 似 于 数组 的 实现 ， 结 构 的 所 有 组 成 部 分 都 存放 在 存储 器 中 一 段 
连续 的 区 域内 ， 而 指向 结构 的 指针 就 是 结构 第 一 个 字 节 的 地 址 。 编 译 器 维护 关于 每 个 结构 类 型 的 
信息 ， 指 示 每 个 字段 (field) 的 字 节 偏 移 。 它 以 这 些 偏 移 作 为 存储 器 引用 指令 中 的 位 移 、 从 而 产 
生 对 结构 元 素 的 引用 。 


: 给 C 语言 初学 者 : wn 

C 语言 提供 的 struct 数据 类 型 的 构造 函数 (constructor) 与 CH 和 ja 的 对 象 最 为 接近 。 
它 克 许 程序 员 在 一 个 数据 结构 中 保存 关于 某 个 实体 的 信息 ， 并 用 名 字 来 引用 这 些 信息 。 

例如 ， 一 个 图 形 程序 可 能 要 用 结构 来 表示 一 个 长 方形 : 


struct rect { 
int 11x; /* X coordinate of lower-left corner */ 
int 1ly; /* Y coordinate of lower-left corner */ 
int color; /* Coding of color */ 
int width; /* Width (in pixels) */ 
int height; /* Height (in pixels) */ 
}; 


可 以 声明 一 个 struct rect 类 型 的 变量 r， 并 设置 它 的 字段 值 如 下 : 
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struct rect 工 ; 
r.llx = rr.lly = 0; 
r.color = OxFFOOFF; 
r.width = 10; 

rs Neus = 20; 


这 里 表达 式 r.11x 就 会 选择 结构 r 的 ] 下文 字段 。 
另外 ， 我 们 可 以 既 声 明 变 量 又 初始 化 它 的 字段 在 一 条 语 向 中 : 


struct rect r = { 0, 0, OxFFOOFF, 10, 20 }; 


”一 个 常见 的 现象 是 ， 将 指向 结构 的 指针 从 一 个 地 方 传 递 到 另 一 个 地 方 ， 而 不 是 复制 它们 。 例 
如 ， 下 面 的 函数 计算 长 方形 的 面积 ， 这 里 ， 人 struct 9 指针 : 


int area(struct rect *rp) 


{- os 
return (+rp) .width * (*rp) .height ; 

je 

表达 式 (*rp) .width 间接 引用 了 这 个 指针 ， 并 且 选 取 所 得 结构 的 width 字段 。 这 里 必须 要 
用 括号 ， 因 为 编译 器 会 将 表达 式 *rp.width 解释 为 *(rp.width)， 而 这 是 非法 的 。 这 种 
间接 引用 和 字段 选取 的 结合 使 用 非常 常见 ， 以 至 于 C 语言 提供 了 一 种 表示 法 -> 作为 替代 。 即 
rp->width 等 价 于 表达 式 (*rp) .width。 例 如 ， RI 将 一 个 长 方形 向 顺 时 
针 旋 转 90 度 : 


void rotate_left(struct rect *rp) 


{ 
/A* Exchange width and height */ 
ijnt t . = rp->height; 
rp->height = ob 
rp->width = t; . 
/* Shift to new es corner */ 
rp->llx -= t; 


} 


”Ct+ 和 Java 的 对 象 比 C 语言 中 的 结构 要 复杂 精细 得 多 ， 因 为 它们 将 一 组 可 以 被 调用 来 执行 
计算 的 方法 与 一 个 对 象 联系 起 来 。 在 C 语言 中 ， 我 们 可 以 简单 地 把 这 些 方法 写成 普通 函数 ， 就 
像 上 面 所 示 的 函数 area 和 rotate left。 


让 我 们 来 看 看 这 样 一 个 例子 ， 考 虑 下 面 的 结构 声明 : 


. struct rec + 
int 1; 
int j; 
int a[L3] ; 
int *p; 


J] 
个 络 构 包括 4 个 字段 2 个 4 字 节 int、1 个 由 3 个 4 字 节 int 组 成 的 数组 和 1 个 4 字 节 的 


0 总 共 是 24 J 
偏 移 0 


内 容 CE 
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可 以 观察 到 ， 数 组 a 是 髋 和 人 到 这 个 结构 中 的 。 上 图 中 顶部 的 数字 给 从 出 的 是 各 个 字段 相对 于 结构 
开始 处 的 字 节 偏 移 。 

为 了 访问 结构 的 字段 ， 编译 器 产生 的 代码 要 将 结构 的 地 址 加 上 适当 的 偏 移 。 例如 ， 假 设 
struct rec* 类 型 的 变量 + 放 在 寄存 器 sedx 中 。 然后 ， 下 隐 的 代码 将 大家 用 制 到 天 家 


r->j: 


1 movl (Wedx), %eax i 
2 movl heax, 4(%edx) Store in r~>j. 


bn ea A a A a 
地 址 加 上 偏 移 量 4。  … 

要 产生 一 个 指向 结构 内 部 对 象 的 指针 ， 我 们 只 ,和 的 地 站 加 上 该 字 的 全- 例如 ， 
只 要 加 上 偏 移 量 8 + 4 xX 1 = 12， 就 可 以 得 到 指针 & (z->a[1] ) 。 对 于 在 寄存 器 $edx 中 的 指针 
a i 


Registers: r in hedx, i in heax | | 
1” 1eal 8(%edx, Xeax， 4), Yeax ~ Set %eax to gr->afil 


最 后 学 一 个 例子， 下 面 的 代码 实现 的 是 语句， 


rE= > = gr- Ce 休 > >i + r- >j] ; 


开始 时 在 寄存 器 $edx 中 : 
1 movl 4(%edx) , heax Get 工 -> 
2 addl (Wedx) , %eax Add r->i 
3 leal 8(%edx ,heax,4), heax Conmpute gr->alr->i + r->j] 
4 mov1 %eax，20(%edx) Store in rr->p 


综 上 所 述 ， 结 构 的 各 个 字 外 的 选取 完全 是 在 编译 时 处 理 的 ， 机 器 代码 不 包含 关于 字段 声明 或 
字段 名 字 的 信息 。 
ES 练习 题 3.39 考虑 下 面 的 结构 声明 : 


struct prob { 





struct 攻 
.int x 
int y 
}s 
struct prob *next, 
Py 
这 个 声明 说 明 一 个 结构 可 以 庶 套 在 另 一 个 结构 中 ， 就 像 数组 可 以 腐 套 在 结构 中 、 数 组 可 以 吝 套 在 数组 
中 一 样 。 


下 面 的 过 程 省略 了 某 些 表达 式 ) 对 这 个 结构 进行 操作 : 


void sp_init(struct prob *sp) 
{ 
Sp->S.X 
sp->p 
sp->next 


} 


Pe neverrrveveremewrnwr 


| 
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A. 下 列 字段 的 偏 移 量 是 多 少 〈 以 字 节 为 单位 ) ? 
人 
一 一 
next: 
，B. 这 个 结构 总 共 需 要 多 少 字 节 ? I 
C. 编译 器 为 sp_init 的 主体 产生 的 汇编 代码 如 下 ， 


Sp at Xebp+8 
movl 8(%ebp) ，%eax 


1 

2 movl 8(%eax) , wedx 

3 movl %edx, 4(%eax) 

4 leal 4(%eax) , hedx 

5 movT1 wedx, (heax) 

6 movl Weax, 12(%eax) 

根据 这 些 信息 ， 填 写 sp_init 代码 中 忽 失 的 表达 式 。 
3. 9.2 联合 


联合 提供 了 一 种 方式 ， 能 够 规避 C 语言 的 类 型 系统 ， 人 允许 以 多 种 类 型 来 引用 一 个 对 象 。 联 
合 声明 的 语法 与 结构 的 语法 一 样 ， 只 不 过 语义 相差 比较 大 。 它 们 是 用 不 同 的 字段 来 引用 相同 的 存 
储 器 块 。 | / 
考虑 下 面 的 声明 : 


struct S3 +{ 
char c; 
int i[2]; 
double T; 
3 


union U3 { 
char c; 
int i[2]; 
double vy; 
}; 


在 一 台 IA32 Linux 机 器 上 编译 时 ， 字 段 的 偏 移 量 、 数 据 类 型 S3 和 U3 的 完整 大 小 如 下 : 





( 稍 后 会 解释 S3 中 i 的 偏 移 量 为 什么 为 4 而 不 是 1， 而 且 我 们 还 会 讨论 对 于 一 台 运行 Microsoft 
Windows 的 机 器 为 什么 结果 会 不 同 。) 对 于 类 型 union U3* 的 指针 P， p->c\P -> [0] 和 p->v 
引用 的 都 是 数据 结构 的 起 始 位 置 。 还 可 以 观察 到 ， 一 个 联合 的 总 的 大 小 等 于 它 最 大 字段 的 大 小 。 

在 一 些 下 上 文中 ， 联合 十 分 有 用 。 但 是 ， 它 也 引起 一 些 讨厌 的 错误 ， 因 为 它们 绕 过 了 C 语 
言 类 型 系统 提供 的 安全 措施 。 一 种 应 用 情况 是 ， 我 们 事先 知道 对 一 个 数据 结构 中 的 两 个 不 同 字段 
的 使 用 是 互 斥 的 ， 那 么 将 这 两 个 字段 声明 为 联合 的 一 部 分 ， 而 不 是 结构 的 一 部 分 ， ee 
则 的 总 量 。 

例如 ， 要 我们 要 实现 一 个 一 村 的 数 所 结构 0 点 都 有 一 个 double 0 
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struct NODE_S { 
struct NODE_S *left; 
struct. NODE_S *right,; 
double data; 

y; 


那么 每 个 节 反 需要 16 个 字 节 ， 每 种 类 型 的 节点 都 要 浪费 一 半 的 字 节 。 如 果 我 们 声明 一 个 节点 如 下 : 


union NODE_U { 
struct { 
Union NODE_U *left; 
union NODE_U *right,; 
} internal; 
double data， 
3 


那么 ， 每 个 节点 就 只 需要 8 个 字 节 。 如 果 n 是 一 个 指针 ， 指 向 union NODE * 类 型 的 节点 ， 我 
们 用 n->qata 来 引用 叶子 节 点 的 数据 ， 而 用 n- >internal. left 和 n- >internal.right 


来 引用 内 部 节点 的 孩子 。 
然而 ， 如 果 这 样 编码 ， 就 没有 办 法 确定 一 个 给 定 的 节点 到 底 是 叶子 节点 ， 还 是 内 部 节点 。 党 
用 的 方法 是 引入 一 个 枚 举 类 型 ， 定 义 这 个 联合 中 可 能 的 不 同 选择 ， 然 后 再 创建 一 个 结构 ， 包 含 一 


个 标签 字段 和 这 个 联合 : 
ey. enum { N_LEAF, N_INTERNAL } nodetype.t; 


struct NODE_T { 
Dodetype_t type; 
union { 
struct { 
struct NODE_T *left; 
struct NODE_T *Tright ; 
} internal ; 
double data; 
} info; 
上 -0 
这 个 结构 总 共 需 要 12 个 字 节 ; type 是 4 个 字 节 ,info.internal.left 和 info.internal. 
right 各 要 4 个 字 节 ， 或 者 是 info.data 要 8 个 字 节 。 在 这 种 情况 下 ， 相 对 于 给 代码 造成 的 麻 
烦 ， 使 用 联合 带 来 的 节省 是 很 小 的 。 对 于 有 较 多 字段 的 数据 结构 ， 这 样 的 节省 会 更 加 吸引 人 。 
联合 还 可 以 用 来 访问 不 同 数据 类 型 的 位 模式 。 A a A a 


unsigned 的 位 表示 : 
1 人 loat2bit (fl0at f) 


"mion { 
4 .float £; 
5 unsigned u; 

.6 :| } temp; 
7 temp.f = 工 ; 
8 return temp.u; . . - . 
; 


在 这 段 代码 中 ， 我 们 以 一 种 数据 类 型 来 存储 联合 中 的 参数 ， 又 以 另 一 种 数据 类 型 来 访问 它 。 有 趣 
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的 是 ， 为 此 过 程 产生 的 代码 与 为 下 面 这 个 过 程 产生 的 代码 是 一 样 的 : 


unsigned copy(unsigned u) 


1 
2 过 

3 . reéturn u; 

! 

这 两 个 过 程 的 主体 只 有 一 条 指令 : 
1 movl 8(%ebp),%$Seax 


这 就 证 明 机 器 代码 中 缺乏 类 型 信息 。 无 论 参数 是 一 个 float， 还 是 一 个 unsigned， 它 都 在 
相对 sebp 偏 移 量 为 8 的 地 方 。 过 程 只 是 简单 地 将 它 的 参数 复制 到 返回 值 ， 不 修改 任何 位 。 

当 用 联合 将 各 种 不 同 大 小 的 数据 类 型 结合 到 一 起 时 ， 字 节 顺 序 问 题 就 变 得 很 重要 了 。 例 
如， 假设 我 们 写 了 一 个 过 程 ， 0 创建 一 个 8 字 节 的 
double: 


double bit2double(unsigned word0, unsigned word1) 


union { 
double d; 
unsigned u[2]; 
} temp; 


temp.u[0] = word0; 
temp.u[1] = wordt; 
return temp.d; 


在 IA32 这 样 的 小 端 法 机 器 上 ， 参 数 word0 是 d 的 低位 4 个 字 节 ， 而 wordl 是 高 位 4 个 字 


节 。 在 大 端 法 机 器 上 ， 这 两 个 参数 的 角色 刚好 相反 。 
及 呈 | 练习 题 3.40 ”假设 给 你 个 任务 ， 检 查 一 下 C 编译 器 为 结构 和 联合 的 访问 产生 正确 的 代码 。 你 写 了 下 面 


” 的 结构 声明 ， 


typedef union { 





struct { 
Short vy; 
Short d,; 
int S ; 
tl; 
struct 并 
int a[2] ; 
char *p; 
} t2; 
} u_type; 


你 写 了 一 组 具有 下 面 这 种 形式 的 函数 
void Set type *up, TYPE *dest) { 
*dest = EXPR; 
这 组 函数 有 不 一 样 的 访问 表达 式 EXPR， 而 且 根 据 EXPR 扩 类 型 玉 设 时 目 的 狼 据 闫 型 TYPBE。 然后 再 检 


查 编 译 这 些 函 数 时 产生 的 代码 ， 看 看 它们 是 否 与 你 预期 的 一 样 。 
假设 在 这 些 函 数 中 , up 和 dest 分 别 被 加 载 到 寄存 器 %eax 和 $edx 中 。 六 号 下 表 中 的 数据 类 型 TYPE， 
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并 用 1 一 3 条 指令 序列 来 计算 表达 式 ， 将 结果 存储 到 dest 中 。 试 着 只 用 寄存 器 seax 和 %edx， 不 够 用 的 
了 时候， 再 用 寄存 器 Secx。 


moVv]1 4(%eax) , Weax 
movl Weax, (Wedx) 


&up->ti.d 


up->t2.a[up->t1.s] 


*uUp->t2.p 





3.9.3 ”数据 对 齐 

许多 计算 机 系统 对 基本 数据 类 型 合法 地 址 做 出 了 一 些 限制 ， 要 求 某 种 类 型 对 象 的 地 址 必须 是 
某 个 值 玉 〈 通 常 是 2、4 或 8) 的 倍数 。 这 种 对 齐 限 制 简 化 了 形成 处 理 器 和 存储 器 系统 之 间接 口 
的 硬件 设计 。 例 如 ， 假 设 一 个 处 理 器 总 是 从 存储 器 中 取出 8 个 字 节 ， 则 地 址 必须 为 8 的 倍数 。 如 
果 我 们 能 保证 将 所 有 的 double 类 型 数据 的 地 址 对 齐 成 8 的 倍数 ， 那 么 就 可 以 用 一 个 存储 器 操 
作 来 读 或 者 写 值 了 。 和 否则， 我 们 可 能 需要 执行 两 次 存储 器 访问 ， 因 为 对 象 可 能 被 分 放 在 两 个 8 字 
节 存 储 器 块 中 。 

无 论 数据 是 否 对 齐 ，IA32 硬件 都 能 正确 工作 。 不 过 ，Intel 还 是 建议 要 对 齐 数据 以 提高 存储 
器 系统 的 性 能 。Linux 沿用 的 对 齐 策略 是 ，2 字 节 数据 类 型 〈 例 如 short) 的 地 址 必须 是 2 的 售 
” 数 ， 而 较 大 的 数据 类 型 (例如 int、intx*、foat 和 double) 的 地 址 必须 是 4 的 倍数 。 注 意 ， 
这 个 要 求 就 意味 着 一 个 short 类 型 对 象 的 地 址 最 低位 必须 等 于 0。 类 似 地 ， 任 何 int 类 型 的 对 
象 或 指针 的 地 址 的 最 低 两 位 必须 都 是 0。 


强制 对 齐 的 情况 

对 于 大 多 数 IJA32 指令 来 说 ， 保 持 数据 对 齐 能 够 提高 效率 ， 但 是 它 不 会 影响 程序 的 行为 。 另 . 
一 方面 ， 如 果 数 据 示 对齐 ， 有些 实 现 多 媒体 操作 的 SSE 指令 就 无 法 正确 地 工作 。 这 些 指令 对 16 
字 节 数据 块 进 行 操作 ， 在 SSE 单元 和 存储 器 之 间 传 送 数据 的 指令 要 求 存 储 器 地 址 必须 是 16 的 倍 
数 。 任 何 试图 以 不 满足 对 齐 要 求 的 地 址 来 访问 存储 器 者 会 导致 异常 〈exception)， 默 认 的 行为 是 
程序 终止 。 

因此 IA32 的 一 个 惯例 是 ， 确 保 每 个 栈 幅 的 长 度 部 是 16 字 节 的 整数 倍 。 编 译 器 就 可 以 在 栈 
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帧 中 以 每 个 块 的 存储 都 是 16 字 节 对 齐 的 方式 来 分 配 存储 。 


Microsoft Windows 的 对 齐 

Microsoft Windows 对 齐 的 要 求 更 严格 一 一 任何 天 字 节 基本 对 象 的 地 址 都 必须 是 天 的 倍数 ， 
开 =2，4 或 者 8。 特别 地 ， 它 要 求 一 个 double 或 者 long long 类 型 数据 的 地 址 应 该 是 8 的 倍 
数 。 这 种 要 求 提高 了 存储 器 性 能 ， 而 代价 是 浪费 了 一 些 空间 。Linux 的 惯例 是 8 字 节 数据 在 4 字 
节 边 界 上 对 齐 ， 这 可 能 对 1386 很 好 ， 因 为 过 去 存储 器 十 分 缺乏 ， 而 存储 器 接口 只 有 4 字 节 宽 。 
对 于 现代 处 理 器 来 说 ，Microsoft 的 对 齐 策 略 就 是 更 好 的 选择 。 在 Windows 和 Linux 上 ， 数 据 类 
型 1ong double 者 有 4 字 节 对 齐 的 要 求 ， 为 此 GCC 产生 的 IA32 代码 分 配 12 个 字 节 (虽然 实 
际 的 数据 类 型 只 需要 10 个 字 节 )。 


确保 每 种 数据 类 型 都 按照 指定 方式 来 组 织 和 分 配 ， 即 每 种 类 型 的 对 象 都 满足 它 的 对 齐 限 制 ， 
就 可 保证 实施 对 齐 。 编 译 器 在 汇编 代码 中 放 人 命令 ， 指 明 全 局 数据 所 需 的 对 齐 。 例 如 ，3、6、7 
节 中 的 跳 转 表 ， 汇 编 代码 声明 的 第 2 行 包 含 下 面 这 样 的 命令 : 


.align 4 


这 就 保证 了 它 后 面 的 数据 (在 此 ， 是 跳 转 表 的 开始 ) 的 起 始 地 址 是 4 的 倍数 。 因 为 每 个 表 项 
长 4 个 字 节 ， 后 面 的 元 素 都 会 遵守 4 字 节 对 齐 的 限制 。 

分 配 存储 器 的 库 例 程 〈 例 如 malloc) 的 设计 必须 使 它们 返回 的 指针 满足 运行 机 器 最 糟糕 情 
况 的 对 齐 限制 ， 通 常 是 4 或 者 8。 对 于 包含 结构 的 代码 ， 编 译 器 可 能 需要 在 字段 的 分 配 中 插入 间 
际 ， 以 保证 每 个 结构 元 素 都 满足 它 的 对 齐 要 求 。 而 结构 本 身 对 它 的 起 始 地 址 也 有 一 些 对 齐 要 求 。 

比如 说 ， 考 虑 下 面 的 结构 声明 : 


struct Si { 
int i; 
char c; 
int jj; 


}; 


假设 编译 器 用 最 小 的 9 字 节 分 配 ， 画 出 图 来 是 这 样 的 : 


偏 移 0 4 5 9 
内 容 [ i || ;i | 


它 不 可 能 满足 字段 1 〈 偏 移 为 0) 和 j( 偏 移 为 5) 的 4 字 节 对 齐 要 求 。 编 译 器 在 字段 c 和 j 之 
间 插 入 一 个 3 字 节 的 间 阶 (用 阴影 表示 )， 改 后 的 图 如 下 : 





结果 ，j 的 偏 移 量 为 8， 而 整个 结构 的 大 小 为 12 字 节 。 此 外 ， 编 译 器 必须 保证 任何 struct 
Sl1* 类 型 的 指针 p 都 满足 4 字 节 对 齐 。 用 我 们 前 面 的 符号 ， 让 指针 p 的 值 为 x,。。 那 么 ，x, 必须 
是 4 的 倍数 。 这 就 保证 了 p->i (地 址 x,) 和 p->j (地址 zz+8) 都 满足 它们 的 4 字 节 对 齐 要 求 。 

另外 ， 编 译 器 结构 的 末尾 可 能 需要 一 些 填 充 ， 这 样 结构 数组 中 的 每 个 元 素 都 会 满足 它 的 对 齐 
要 求 。 例 如 ， 考 虑 下 面 这 个 结构 声明 : : 


struct S2 { 
int i; 
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int jj; 
char C; 


上 


如 果 我 们 将 这 个 结 寺 构 打包 成 9 个 字 节 ， 只 要 保证 结构 的 起 始 地 址 满足 4 字 节 对 齐 要 求 ， 我 们 仍然 
能 够 保证 满足 字段 i 和 j 的 对 齐 要 求 。 不 过 ， 考 虑 下 面 的 声明 : 
struct S2 d[4]; 
分 配 9 个 字 节 ， 不 可 能 满足 a 的 每 个 元 素 的 对 齐 要 求 ， 因 为 这 些 元 素 的 地 址 分 别 为 x。、xs + 9、 
xa+18 和 xs+27。 相 反 地 ， 编 译 器 会 为 结构 S2 分 配 12 个 字 节 ， 最 后 3 个 字 节 是 浪费 的 空间 : 
偏 移 0 4 8 9 Ss 





这 样 一 来 ，d 的 元 素 的 地 址 分 别 为 x、xs。+ 12、xs。+ 24 和 xs+ 36。 只 要 是 4 的 倍数 ， 所 有 的 

对 齐 限制 就 都 可 以 满足 了 。 

练习 题 3.41 对 下 面 每 个 结构 声明 ， 确 定 每 个 字段 的 偏 移 量 、 结 构 总 的 大 小 ， 以 及 在 Linux/IA32 下 它 
对齐 要 家 。 


A. struct P1 { int i; char c; int j; char d; }; 





. struct P2 { int i; char c; char d; int j;}; 
. struct P3 { short w[3]; char c[3] }; 

. struct P4 { short w[3]; char *c[3] }; 

, struct P3 { struct Pi a[2]; struct P2 *p }; 


| 练习 题 3.42 ”对 于 结构 声明 


struct 1{ 
char 
short 
double 
char 
float 
char 
long long 
void *h; 
} foo; 





关 


Pa mo NT 


SR wd 

A. 这 个 结构 中 所 有 字段 的 字 节 偏 移 量 是 多 少 ? 

B. 这 个 结构 总 的 大 小 是 多 少 ? 

C. 重新 排列 这 个 结构 中 的 字段 ， 以 最 小 化 浪费 的 空间 ， 然 后 再 给 出 重 排 过 的 结构 的 字 节 偏 移 量 和 总 的 大 小 。 


3.10 综合 : 理解 指针 


指针 是 C 语言 的 一 个 重要 特征 。 它 们 以 一 种 统一 方式 ， 对 不 同 数据 结构 中 的 元 素 产 生 引 用 。 
对 于 编程 新 手 来 说 ， 指 针 总 是 会 带 来 很 多 的 困惑 ， 但 是 基本 的 概念 其 实 非常 简单 。 在 此 ， 我 们 重 
点 介绍 一 些 指 针 和 它们 映射 到 机 器 代码 的 关键 原则 。 

* 每 个 指针 都 对 应 一 个 类 型 。 这 个 类 型 表明 指针 指向 哪 一 类 对 象 。 以 下 面 的 指针 声明 为 例 : 


int *ip; 
char **cpp; 
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变量 ip 是 一 个 指向 int 类 型 对 象 的 指针 ， 而 cpp 指针 指向 的 对 象 自身 就 是 一 个 指向 char 
类 型 对 象 的 指针 。 通 常 ， 如 果 对 象 类 型 为 7， 那么 指针 的 类 型 为 *7。 特 殊 的 voidx 类 型 代表 通 
用 指针 。 比 如 说 ，malloc 函数 返回 一 个 通用 指针 ， 然 后 通过 显 式 强制 类 型 转换 或 者 赋值 操作 那 
样 的 隐 式 强制 类 型 转换 ， 将 它 转 换 成 一 个 有 类 型 的 指针 。 指 针 类 型 不 是 机 器 代码 中 的 一 部 分 ; 它 
们 是 C 语言 提供 的 一 种 抽象 ， 帮 助 程序 员 避 免 寻 址 错误 。 

。 每 个 指针 都 有 一 个 值 。 这 个 值 是 某 个 指定 类 型 对 象 的 地 址 。 特 殊 的 NULL (0) 值 表 示 该 指 

针 没有 指向 任何 地 方 。 

。 指针 用 & 运算 符 创建 。 这 个 运算 符 可 以 应 用 到 任何 lvalue 类 的 C 表达 式 上 ， 意 味 着 它 是 可 

以 出 现在 赋值 语句 左边 的 表达 式 。 这 样 的 例子 包括 变量 以 及 结构 、 联 合 和 数组 的 元 素 。 我 

们 已 经 看 到 ， 因 为 leal 指令 是 设计 用 来 计算 存储 器 引用 的 地 址 的 ，& 运算 符 的 机 器 代码 

实现 常常 用 这 条 指令 来 计算 表达 式 的 值 。 

。 操 作 符 用 于 指针 的 间接 引用 。 其 结果 是 一 个 值 ， 它 的 类 型 与 该 指针 的 类 型 相关 。 间 接 引 用 

是 通过 存储 器 引用 来 实现 的 ， 要 么 是 存储 到 一 个 指定 的 地 址 ， 要 么 是 从 指定 的 地 址 读 取 。 

* 数组 与 指针 紧密 联系 。 一 个 数组 的 名 字 可 以 像 一 个 指针 变量 一 样 引用 (但 是 不 能 修改 )。 

数组 引用 (例如 a[3]) 与 指针 运算 和 间接 引用 例如 * (a+3) ) 有 一 样 的 效果 。 数 组 引 

用 和 指针 运算 都 需要 用 对 象 大 小 对 偏 移 量 进行 伸缩 。 当 我 们 写 表达 式 p+i， 指 针 p 的 值 为 

p， 得 到 的 地 址 计算 为 p+L.i， 这 里 工 是 与 p 相关 联 的 数据 类 型 的 大 小 。 

“将 指针 从 一 种 类 型 强制 转换 成 另 一 种 类 型 ， 只 改变 它 的 类 型 ， 而 不 改变 它 的 值 。 强 制 类 列 

转换 的 一 个 效果 是 改变 指针 运算 的 伸缩 。 来 看 一 个 例子 ， 如 果 p 是 一 个 char* 类 型 的 指 

针 ， 它 的 值 为 p， 那 么 表达 式 (int*)p+7 计算 为 pt28， 而 (int*) (p+7) 计算 为 p+7。 

(回想 一 下 ， 强 制 类 型 转换 的 优先 级 高 于 加 法 。) 

。 指 针 也 可 以 指向 函数 。 这 提供 了 一 个 很 强大 的 存储 和 向 代码 传递 引用 的 功能 ， 这 些 引用 可 

以 被 程序 的 某 个 其 他 部 分 调用 。 例 如 ， 如 果 我 们 有 一 个 函数 ， 用 下 面 这 个 原型 定义 : 


int fun(int x, int *p); 
然后 ， 我 们 可 以 声明 一 个 指针 fp， 将 它 赋值 为 这 个 函数 ， 代 码 如 下 : 


(int) (*fp) (int, int *); 
fp = fun; 


然后 用 以 下 指针 来 调用 这 个 函数 : 

int y = 1; 

int result = fp(3, &y); 

盟 数 指针 的 值 是 该 函数 机 器 代码 表示 中 第 一 条 指令 的 地 址 。 

给 C 语言 初学 者 : 函数 指针 

函数 指针 声明 的 语法 对 程序 员 疡 手 来 说 特别 难以 理解 。 对 于 以 下 声明 : 

int (*f) (int*),; . 
要 从 里 (从 “f” 开 始 ). 往外 读 。 因 此 ， 我 们 看 到 “(*f)” 表 明 ， 工 是 一 个 指针 ;而 “(*f) 
(int*) ”表明 工 是 一 个 指向 函数 的 指针 ， 这 个 函数 以 一 个 int* 作为 参数 。 最 后 我 们 知道 ， 它 
是 指向 以 int* 为 参数 并 返回 int 的 函数 的 指针 。 

*f 两边 的 括号 是 必需 的 ， 否 则 声明 变 成 
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int *f (int*); 
它 会 被 解读 成 
(int *) f(int*),; 


也 ,就 是 说 ， 筷 会 被 解释 成 一 个 函数 原型 ， 声 明了 一 个 函数 上， 筷 以 一 个 int* ee 
个 int*。 
Kernighan 和 Ritchie (文献 [58]5.12 节 ) 提供 了 一 个 有 关 阅 读 C 声明 的 很 有 帮助 的 指 南 。 


3.11 应 用 : 使 用 GDB 调试 器 


GNU 的 调试 器 GDB 提供 了 许多 有 用 的 特性 ， 支 持 机 器 级 程序 的 运行 时 评估 和 分 析 。 我 们 试 
图 用 本 书 中 的 示例 和 练习 ， 通 过 阅读 代码 ， 来 推断 出 程序 的 行为 。 有 了 GDB， 可 以 观察 正在 运 
行 的 程序 ， 同 时 又 对 程序 的 执行 有 相当 的 控制 ， 这 使 得 研究 程序 的 行为 变 为 可 能 。 

图 3-30 是 一 些 GDB 命令 的 例子 ， 在 使 用 机 器 级 IA32 程序 时 ， 它 们 会 有 所 帮助 。 先 运行 
OBJDUMP 来 获得 程序 的 反 汇 编 版 本 ， 是 很 有 好 处 的 。 我 们 的 示例 都 基于 对 文件 Prog 运行 
GDB， 程 序 的 描述 和 反 汇 编 见 3.2.2 节 。 我 们 用 下 面 的 命令 行 来 启动 GDB : 


unix> gdb prog 


通常 的 方法 是 在 程序 中 感 兴趣 的 地 方 附近 设置 断 点 。 断 点 可 以 设置 在 函数 入 口 后 面 ， 或 是 一 
个 程序 的 地 址 处 。 程 序 在 执行 过 程 中 遇 到 一 个 断 点 时 ， 程 序 会 停 下 来 ， 并 将 控制 返回 给 用 户 。 在 
斯 点 处 ， 我 们 能 够 以 各 种 方式 查看 各 个 寄存 器 和 存储 器 位 置 。 我 们 也 可 以 单 步 跟踪 程序 ， 一 次 只 
执行 几 条 指令 ， 或 是 前 进 到 下 一 个 断 点 。 es 

正如 我 们 的 示例 表明 的 那样 GDB 的 命令 语法 有 点 用 涩 ， 但 是 在 线 帮 助 信 息 《〈 用 GDB 的 
help 命令 调用 ) 能 克服 这 些 毛病 。 相对 于 使 用 命令 行 接口 访问 GDB， 许 多 程序 员 更 愿意 使 用 
DDD， 它 是 GDB 的 一 个 扩展 ， 提 供 了 图 形 用 户 界面 。 


网 络 旁 注 ASM : OPT 用 更 高 级 别 的 优化 产生 的 机 器 代码 

我 们 看 到 用 第 一 级 优化 产生 机 器 代码 〔〈 用 命令 行 选项 “-01” 指定 的 )。 实 际 上 ， 大 多 数 常 
用 的 程序 部 使 用 更 高 级 别 的 优化 未 编译 。 例如 ， 所 有 的 GNU 库 和 包 都 是 用 第 二 级 优化 编译 的 ， 
用 命令 行 选项 “-02” 指 定 

最 近 的 GCC 版 本 采用 了 大 量 的 第 二 级 优化 ， 使 得 源 代 码 和 产生 的 代码 之 间 的 映射 受难 看 
懂 。 以 下 是 一 些 第 二 级 优化 的 示例 : 

。 控 制 结 构 变 得 更 纠结 。 大 多 数 程 序 都 有 多 个 返回 点 ， 建立 和 完成 函数 的 栈 管理 代码 与 实现 

过 程 操作 的 代码 混杂 在 一 起 ， 

.过 程 调用 常常 是 内 联 的 〈inlined)， 用 实现 这 些 过 程 的 指令 取代 了 这 些 过 程 。 这 消除 了 

很 多 调用 和 从 函数 返回 的 开销 ， 而 且 篆 使 得 针对 单个 函数 调用 的 优化 成 为 可 能 。 另 一 

方面 ， 和 我 们 可 能 永远 都 不 会 遇 到 对 这 个 函 

数 的 调用 。 

,常常 用 勿 环 来 普 代 递归 。 例 如 ， 递 归 阶 末 函数 fact (图 3.25) 编译 出 的 代码 非常 类 似 于 

while 循环 实现 产生 的 代码 (图 3-15)。 同 样 ， 当 我 们 试图 用 调试 器 监控 程序 执行 时 ， 这 

也 会 导致 一 些 出 人 意料 的 情况 . 

这 些 优化 可 以 显著 地 提高 程序 的 性 能 ， 但 是 它们 也 使 源 代码 和 机 器 代码 之 间 的 映射 更 加 难以 
办 别 。 这 也 使 程序 更 难以 调试 。 现 在 这 些 更 高 级 别 的 优化 已 经 变 成 了 标准 ， i 
的 人 必须 人 的 优化 策略 。 


break sum 

break *0x8048394 
delete 1 

delete 


stepi 
stepi 4 
nexti 
continue 
finish 


检查 代码 


disas 

disas sum 

disas Ox8048397 

disas Ox8048394 0x80483a4 
print /x $eip 


print $eax 
print /x $eax 
Print /t $eax 
print Ox100 
print /x 555 
~ print /x ($ebp+8) 
print *(int *) Oxfff076b0 
print *(int *) ($ebp+8) 
XxX/2w Oxfff076b0 
X/20b sum 

有 用 的 信息 
info frame 
info registers 
help 


甸 3 苹 在 序 失 机 器 级 玫 示 


退出 GDB 
运行 程序 (在 此 给 出 命令 行 参数 ) 
停止 程序 


在 函数 sum 人 口 处 设置 断 点 

在 地 址 0x8048394 处 设置 断 点 
删除 断 点 1 

删除 所 有 断 点 


执行 1 条 指令 

执行 4 条 指令 

类 似 于 stepi， 但 是 以 函数 调用 为 单位 的 
继续 执行 

运行 直到 当前 函数 返回 


反 汇 编 当 前 函数 

反 汇 编 函 数 sum 

反 汇 编 位 于 地 址 0x8048397 附近 的 函数 
反 汇 编 指定 地 址 范围 内 的 代码 

以 十 六 进 制 输出 程序 计数 器 的 值 


以 十 进 制 输出 seax 的 内 容 

以 十 六 进 制 输出 seax 的 内 容 

以 二 进 制 输出 seax 的 内 容 

输出 0x100 的 十 进 制 表示 

输出 555 的 十 六 进 制 表示 

以 十 六 进 制 输出 sebp 的 内 容 加 上 8 
输出 位 于 地 址 0xfff076b0 的 整数 
输出 位 于 地 址 sebp + 8 处 的 整数 

检查 从 地 址 0xfff076b0 开始 的 双 (4 字 节 ) 字 
检查 函数 sum 的 前 20 个 字 节 


有 关 当 前 栈 帧 的 信息 
所 有 寄存 器 的 值 
获取 有 关 GDB 的 信息 





3-30 GDB 命令 示例 。 说 明了 一 些 GDB 支持 机 器 级 程序 调试 的 方式 
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3.12 存储 器 的 越界 引用 和 缓冲 区 溢出 


我 们 已 经 看 到 ，C 对 于 数组 引用 不 进行 任何 边界 检查 ， 而 且 局 部 变量 和 状态 信息 〈 例 如 保存 
的 寄存 器 值 和 返回 地 址 )， 都 存放 在 栈 中 。 这 两 种 情况 结合 到 一 起 就 可 能 导致 严重 的 程序 错误 ， 
对 越界 的 数组 元 素 的 写 操作 会 破坏 存储 在 栈 中 的 状态 信息 。 当 程序 使 用 这 个 被 破坏 的 状态 ， 试 图 
重新 加 载 寄 存 器 或 执行 ret 指令 时 ， 就 会 出 现 很 严重 的 错误 。 

一 种 特别 常见 的 状态 破坏 称 为 缓冲 区 溢出 (buffer overflow)。 通 常 ， 在 栈 中 分 配 某 个 字 节 数 
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锚 


一 序 分 ”在 序 结 药 和 的 疗 


组 来 保存 一 个 字符 串 ， 但 是 字符 串 的 长 度 超出 了 为 数组 分 配 的 空间 。 下 面 这 个 程序 示例 就 说 明了 


这 个 问题 : 


/* S 


ample implementation of library function gets() */ 


char *gets(char *s) 


{ 


‘jint c; 


} 


char *dest = s; 
int gotchar = 0; /* Has at least one character been read? */ 
While ((c = getchar()) != '\n' && c != EOF) { 
*destt++ = Cj /* No bounds checking! */ 
gotchar = 1,; 
} 
*dest++ = '\0'; /* Terminate string */ 
if (c == EOF && !gotchar) 
return NULL; /* End of file or error */ 
return s; 


/* Read input line and write it back */ 
void echo() 


{ 


char buf [8]; /* Way 七 Oo small! */ 
gets(buf ) ; 
puts (buf ) ; 


前 面 的 代码 给 出 了 库 函 数 gets 的 一 个 实现 ， 用 来 说 明 这 个 函数 的 严重 问题 。 它 从 标准 输入 


读 人 


一 行 ， 在 遇 到 一 个 回 车 换行 字符 或 某 个 错误 情况 时 停止 。 它 将 这 个 字符 串 复制 到 参数 s 指 


明 的 位 置 ， 并 在 字符 串 结尾 加 上 null 字符 。 在 函数 echo 中 ， 我 们 使 用 了 gets， 这 个 函数 只 是 
简单 地 从 标准 输入 中 读 和 一行， 再 把 它 回 送 到 标准 输出 。 
gets 的 问题 是 它 没有 办 法 确定 是 否 为 保存 整个 字符 串 分 配 了 足够 的 空间 。 在 echo 示例 


中 ， 我 们 故意 将 缓冲 区 设 得 非常 小 





只 有 8 个 字 节 长 。 任 何 长 度 超过 7 个 字符 的 字符 串 都 会 导 


致 写 越界 。 

.检查 GCC 为 echo 产生 的 汇编 代码 ， 看 看 栈 是 如 何 组 织 的 : 

1] echo: 

“站 pushl  ‘%hebp Saye %ebp ‘on stack 

3 movl hesp, %ebp 
4 pushl  %ebx Save %ebx 

, 5 subl $20，%esp Allocate 20 bytes on Stack 
6 leal =12 (%ebp) 5 Xebx Compute buf as %ebp-12 
7 movl hebx, (hesp) Store bif at top of stack 
8 call gets Call gets 
9 movl %ebx, (hesp) Store but at top br “stack 
10 call puts Call puts 

iT addl] :| $20,%esp Deallocate stack space 

12 ‘popl . hebx: .Restore %ebx 

， popl %ebp Restore %ebp 
14 ret | : Return: 


在 这 个 例子 中 ,我 们 可 以 看 到 ， 程 序 将 寄存 器 $ebp. 和 $ebx 存储 在 栈 上 ， 然 后 将 栈 指针 减 


之 3 茧 答 床 擅 机 器 级 六 示 了 T77 


去 20 来 分 配额 外 的 20 个 字 节 的 空间 〈 第 5 行 )。 字 符 数 组 buf 的 位 置 用 sebP 下 12 个 字 他 
来 计算 〈 第 6 行 )， 存 放 在 保存 sepbx 值 的 下 面 ， 如 图 3-31 所 示 。 只 要 用 户 输入 不 超过 7 个 
字符 ，gets 返回 的 字符 串 〈 包 括 结尾 的 aull) 就 能 够 放 进 为 buf 分 配 的 空 s 间 里 。 不 过 ， 长 
一 些 的 字符 串 就 会 导致 gets 履 盖 栈 上 存储 的 某 些 信息 。 随 着 字符 串 变 长 ， 下 面 的 信息 会 被 
破坏 : 


输入 的 字符 数量 附加 的 被 破坏 的 状态 


保存 的 sebx 的 值 


保存 的 sebp 的 值 
返回 地 址 
caller 中 保存 的 状态 . 





如 上 表 所 示 ， 破 坏 是 累积 的 一 一 随 着 字符 数量 的 增加 ， 破 坏 的 状态 越 来 越 多 。 根 据 影响 状态 
部 分 的 不 同 ， 程 序 会 出 现 以 下 几 种 不 同 的 错误 : 
* 如 果 破 坏 了 存储 $ebx 的 值 ， 那 么 在 第 12 行 这 个 寄存 器 就 不 能 正确 地 恢复 ， 因 此 虽然 应 该 
由 被 调用 者 来 保存 好 这 个 值 ， 但 是 调用 者 也 不 能 依靠 这 个 寄存 器 的 完整 性 。 
* 如 果 破 坏 了 存储 $ebp 的 值 ， 那 么 在 第 13 行 这 个 寄存 器 就 不 能 正确 地 恢复 ， 因此 调用 者 就 
不 能 正确 地 引用 它 的 局 部 变量 或 者 参数 。 
* 如 果 破 坏 了 存储 的 返回 地 址 ， 那 么 ret 指令 (第 14 行 ) 会 使 程序 跳 转 到 完全 意 想不到 的 
地 方 。 
如 果 是 C 代码 ， 根 本 就 不 可 能 看 出 上 面 这 些 行为 。 像 gets 这 样 的 函数 对 存储 器 越界 写 的 
影响 ， 只 有 通过 研究 机 器 代码 级 别 的 程序 才能 理解 。 


调用 者 
的 栈 由 


echo 


的 栈 帧 





图 3-31 echo 函数 的 栈 组 织 。 字 符 数组 buf 就 在 保存 的 状态 下 面 。 对 buf 的 越界 写 会 破坏 程序 的 状态 


我 们 的 echo 代码 很 简单 ， 但 是 有 点 太 随 意 了 。 更 好 一 点 的 版 本 是 使 用 fgets 图 数 ， 它 包 
括 一 个 参数 ， 限 制 待 读 入 的 最 大 字 节 数 。 家 庭 作 业 3.68 要 求 你 写 出 一 个 能 处 理 任意 长 度 输 入 字 
符 串 的 echo 函数。 通常 ， 使 用 gets 或 其 他 任何 能 导致 存储 溢出 的 函数 ， 都 是 不 好 的 编程 习 
惯 。 当 编译 一 个 含有 调用 gets 的 文件 时 ，C 编译 器 甚至 会 产生 这 样 的 出 错 信息 :“the gets 
function is dangerous and should not be used.” 不 幸 的 是 ， 很 多 常用 的 库 函 数 ， 
包括 strcpy、strcat 和 sprintf， 都 有 一 个 属性 一 一 不 需要 告诉 它们 目标 缓冲 区 的 大 小 ， 
就 产生 一 个 字 节 序 列 “ 。 这 样 的 情况 就 会 导致 容易 遭受 缓冲 区 溢出 的 攻击 。 
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/* This is very low-quality code. 
lt is intended to illustrate bad programming practices. 
See Froblem 3.43. */ 
char *getline() 
char buf [8]; 
char *result; 
gets (buf); 
result = malloc(strlen(buf)); 
strcpy(result , buf); 
return result, 


1 
2 
3 
4 
3 
6 
7 
8 





a) C 语言 代码 


080485c0 <getline>: 

80485c0: 55 %ebp 

80485c1: 89 e5 hesp,%ebp 
80485c3: 83 ec 28 $0x28 ,hesp 
80485c6: 89 5d f4 hebx,—O0xc (hebp) 
80485c9: 89 75 f8 hesi,—-0x8(%ebp) 
80485cc: 89 7d fc hedi ,~O0x4(%ebp) 
Diagram stack at this point 

80485cf: 8d 75 ec -Ox14(hebp) ,wesi 
80485d2: 89 34 24 hesi, (%esp) 
80485d5: ee8 a3 ff ff ff call 804857d <gets> 


Modify diagram to show stack contents at this point 


b) 对 gets 调用 的 反 汇编 
图 3-32 练习 题 3.43 的 C 和 反 汇 编 代码 








制 到 新 分 配 的 存储 中 ， 并 返回 一 个 指向 结果 的 指针 。 

考虑 下 面 这 样 的 场景 。 调 用 过 程 getline， 返 回 地 址 等 于 0x8048643， 寄 存 融 $ebp 等 于 

0xbffffc94， 寄 存 器 %ebx 等 于 0x1， 寄 存 器 %eqdi 等 于 0x2， 而 寄存 器 %esi 等 于 0x3。 输 入 字 

符 串 为 “012345678901234567890123?”， 程 序 会 因为 段 错 误 〈segmentation fault) 而 中 止 。 运 行 

GDB， 确 定 错误 是 在 执行 getline 的 ret 指令 时 发 生 的 。 

A. 填写 下 图 ， 尽 可 能 多 地 说 明 在 执行 完 反 汇 编 代 码 中 第 7 行 指令 后 栈 的 相关 信息 。 在 右边 标注 出 存储 
在 栈 中 数字 的 含意 (例如 “返回 地 址 ”)， 在 方 框 中 写 出 它们 的 十 六 进 制 值 ( 如 果 知 道 的 话 )。 每 个 
方 框 都 代表 4 个 字 节 。 指 出 $ebp 的 位 置 。 : 





B. 修改 你 的 图 ， 展 现 调用 gets 的 影响 (第 10 行 )。 
C. 程序 应 该 试图 返回 到 什么 地 址 ? 
D. 当 getline 返回 时 ， 哪 个 ( 些 ) 寄存 器 的 值 被 破坏 了 ? 
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E. 除了 可 能 会 缓冲 区 溢出 以 外 ，getline 的 代码 还 有 哪 两 个 错误 ? 

缓冲 区 洲 出 的 一 个 更 加 致命 的 使 用 就 是 让 程序 执行 它 本 来 不 愿意 执行 的 函数 。 这 是 一 种 最 常 
见 的 通过 计算 机 网 络 攻击 系统 安全 的 方法 。 通 常 ， 输 入 给 程序 一 个 字符 串 ， 这 个 字符 串 包含 一 些 
可 执行 代码 的 字 节 编码 ， 称 为 攻击 代码 (exploit code)， 另 外 ， 还 有 一 些 字 节 会 用 一 个 指向 攻击 
代码 的 指针 覆盖 返回 地 址 。 那 么 ， 执 行 ret 指令 的 效果 就 是 跳 转 到 攻击 代码 。 

一 种 攻击 形式 ， 攻 击 代 码 会 使 用 系统 调用 启动 一 个 外 壳 程序 ， 给 攻击 者 提供 一 组 操作 系统 函 
数 。 另 一 种 攻击 形式 是 ， 攻 击 代码 会 执行 一 些 未 授权 的 任务 ， 修 复 对 栈 的 破坏 ， 然 后 第 二 次 执行 
ret 指令 ，( 表 面 上 ) 正常 返回 给 调用 者 。 

让 我 们 来 看 一 个 例子 。 在 1988 年 11 月 ， 著 名 的 Internet 蠕虫 病毒 通过 Internet 以 四 种 不 同 
的 方法 对 许多 计算 机 的 获取 访问 。 一 种 是 对 FINGER 守护 进程 fingerd 的 缓冲 区 洲 出 攻击 ， 
fingerd 服务 FINGER 的 命令 请 求 。 通 过 以 一 个 适当 的 字符 串 调用 FINGER， 里 虫 可 以 使 远程 
的 守护 进程 缓冲 区 滋 出 并 执行 一 段 代 码 ， 让 蠕虫 访问 远程 系统 。 一 旦 蠕虫 获得 了 对 系统 的 访问 ， 
它 就 能 自我 复制 ， 几 乎 完全 地 消耗 掉 机 器 上 所 有 的 计算 资源 。 结 果 ， 在 安全 专家 制定 出 消除 这 种 
蜂 虫 的 方法 之 前 ， 成 百 上 千 的 机 器 实际 上 都 瘫痪 了 。 这 种 蠕虫 的 始作俑者 最 后 被 抓 住 并 被 起 诉 。 
时 至 今日 ， 人 们 还 是 不 断 地 发 现 遭 受 缓冲 区 溢出 攻击 的 系统 安全 漏洞 ， 这 更 加 突显 了 仔细 编写 程 
序 的 必要 性 。 任 何 到 外 部 环境 的 接口 都 应 该 是 “防弹 的 ” 这样， 外 部 代理 的 行为 才 不 会 导致 系 


蠕虫 和 病毒 

蠕虫 和 病毒 都 试图 在 计算 机 中 传播 它们 自己 的 代码 段 。 正 如 Spafford' 所 述 : 蠕虫 
(Worm) 可 以 自己 运行 ， 并 且 能 够 将 自己 的 等 效 副 本 传播 到 其 他 机 器 。 病 毒 《virus) 能 将 自己 添 
加 到 包 斤 操作 系统 在 内 的 其 他 程序 中 ， 但 它 不 能 独立 运行 。 在 一 些 大 众 媒体 中 ,“ 病 毒 ” 用 来 指 
各 种 在 系统 间 传 播 攻击 代码 的 策略 ， 所 以 你 可 能 会 听 到 人 们 把 本 来 应 该 叫做 “蠕虫 ”的 东西 称 为 


对 抗 缓 冲 区 溢出 攻击 \ 
缓冲 区 洲 出 攻击 的 普遍 发 生 ， 给 计算 机 系统 造成 了 许多 的 有 麻烦。 现代 的 编译 器 和 操作 系统 已 
经 实现 了 很 多 机 制 ， 以 避免 遭受 这 样 的 攻击 ， 限 制 人 侵 者 通过 缓冲 区 溢出 攻击 获得 系统 控制 的 方 
式 。 在 本 节 中 ， 我 们 会 介绍 一 些 Linux 上 最 新 GCC 版 本 所 提供 的 机 制 。 
1. 栈 随机 化 
为 了 在 系统 中 插入 攻击 代码 ， 攻 击 者 不 但 要 插 和 人 代码， 还 需要 插 人 指向 这 段 代码 的 指针 ， 这 
个 指针 也 是 攻击 字符 串 的 一 部 分 。 产 生 这 个 指针 需要 知道 这 个 字符 串 放置 的 栈 地 址 。 在 过 去 ， 程 
序 的 栈 地 址 非常 容易 预测 。 对 于 所 有 运行 同样 程序 和 操作 系统 版 本 的 系统 来 说 ， 在 不 同 的 机 器 之 
间 ， 栈 的 位 置 是 相当 固定 的 。 因 此 ， 如 果 攻 击 者 可 以 确定 一 个 常见 的 Web 服务 器 所 使 用 的 栈 空 
间 ， 就 可 以 设计 一 个 在 许多 机 器 上 都 能 实施 的 攻击 。 用 传染 病 来 打 个 比方 ， 许 多 系统 都 容易 受到 
同一 种 病毒 的 攻击 ， 这 种 现象 常 称 作 安全 单一 化 (security monoculture〉 久 1。 
栈 随机 化 的 思想 使 得 栈 的 位 置 在 程序 每 次 运行 时 都 有 变化 。 因此 ， 即 使 许多 机 器 都 运 
行 同 样 的 代码 ， 它 们 的 栈 地 址 都 是 不 同 的 。 实 现 的 方式 是 : 程序 开始 时 ， 在 栈 上 分 配 一 段 
0 一 7 字 节 之 间 的 随机 大 小 的 空间 。 例 如 ， 使 用 分 配 函 数 aLloca 在 栈 上 分 配 指定 字 节 数量 
的 空间 。 程序 不 使 用 这 段 空间 ， 但 是 它 会 导致 程序 每 次 执行 时 后 续 的 栈 位 置 发 生 了 变化 。 分 
配 的 范围 n 必须 足够 大 ， 才 能 获得 足够 多 样 的 栈 地 址 变化 ， 但 是 又 要 足够 小 ， 不 至 于 浪费 程 
序 太 多 的 空间 。 
下 面 的 代码 是 一 种 确定 “典型 的 ” 栈 地 址 的 方法 : 
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1 int main() 1 

2 int Jocal; 

3 printf ("local at %p\n", &local); 
4 return 0; 

5 


} 


这 段 代 码 只 是 简单 地 打印 出 main 函数 中 局 部 变量 的 地 址 。 在 32 位 Linux 上 运行 这 段 
代码 10 000 次 ， 这 个 地 址 的 变化 范围 为 0xff7fa7e0 到 0xffffd7e0， 范 围 大 小 大 约 是 
2”。 做 为 对 比 ， 在 一 个 版 本 比较 老 的 Linux 系统 上 运行 这 段 代 码 ， 每 次 输出 的 地 址 都 是 一 样 
的 。 在 更 新 一 点 儿 的 机 器 上 运行 64 位 Linux， 这 个 地 址 的 变化 范围 为 0x7fff00241914 到 
0x7ffffff98664， 范 围 大 小 大 约 是 22。 

在 Linux 系统 中 ， 栈 随机 化 已 经 变 成 了 标准 行为 。 它 是 更 大 一 类 技术 中 的 一 种 ， 这 类 技 
术 称 为 地 址 空间 布局 随机 化 (Address-Space Layout Randomization )， 或 者 简称 ASLR"1。 采 用 
ASLR， 每 次 运行 时 程序 的 不 同 部 分 ， 包 括 程序 代码 、 库 代码 、 栈 、 全 局 变量 和 扒 数 据 ， 都 会 针 
加 载 到 存储 器 的 不 同 区 域 。 这 就 意味 着 在 一 台 机 器 上 运行 一 个 程序 ， 与 在 其 他 机 器 上 运行 同样 的 
程序 ， 它 们 的 地 址 映射 大 相 径 庭 。 这 样 才能 够 对 抗 某 些 形式 的 攻击 。 

然而 ， 一 个 执著 的 攻击 者 总 是 能 够 用 蛮 力 克服 随机 化 ， 他 可 以 反复 地 用 不 同 的 地 址 进 
行 攻 击 。 一 种 常见 的 把 戏 就 是 在 实际 的 攻击 代码 前 插入 很 长 一 段 的 nop〈 读 作 “no op”，no 
operatioin 的 缩写 ) 指令 。 执 行 这 种 指令 除了 对 程序 计数 器 加 一 ， 使 指 指向 下 一 条 指令 之 外 ， 
没有 任何 的 效果 。 只 要 攻击 者 能 够 猜 中 这 段 序列 中 的 某 个 地 址 ， 程 序 就 会 经 过 这 个 序列 ， 到 达 
攻击 代码 。 这 个 序列 常用 的 术语 是 “ 空 操 作 雪 模 ”(nop sled) 上， 意思 是 程序 会 “ 滑 过 ”这 个 
序列 。 如 果 我 们 建立 一 个 256 个 字 节 的 nop sled， 那 么 枚 举 2 =32 768 个 起 始 地 址 ， 就 能 破解 
n = 2 的 随机 化 ， 这 对 于 一 个 顽固 的 攻击 者 来 说 ， 是 完全 可 行 的 。 对 于 64 位 的 情况 ， 要 尝试 枚 
举 2%* = 16 777 216 就 有 点 儿 令 人 旦 惧 了 。 我 们 可 以 看 到 栈 随 机 化 和 其 他 一 些 ASLR 技术 能 够 增 
加 成 功 攻 击 一 个 系统 的 难度 ， 因 而 大 大 降低 了 病毒 或 者 蠕虫 的 传播 速度 ， 但 是 也 不 能 提供 完全 的 
安全 保障 。 
练习 题 3.44 ”在 运行 Linux 版 本 2.6.16 的 机 器 上 运行 栈 检查 代码 10 000 次 ， 我 们 获得 地 址 的 范围 从 最 

小 的 0xffffb754 到 最 大 的 0xffffd754。 

A. 地 址 的 大 概 范围 是 多 大 ? 

B. 如 果 我 们 尝试 一 个 有 128 字 节 nop sled 的 缓冲 区 溢出 ， 起 穷尽 所 有 的 起 始 地 址 ， 需要 党 试 多 少 次 ? 

2. 栈 破 坏 检测 

计算 机 的 第 二 道 防 线 是 能 够 检测 到 何 时 栈 已 经 被 破坏 我 们 在 echo 函数 示例 (图 3-31) 中 
看 到 ， 破 坏 通 常 发 生 在 当 超越 局 部 缓冲 区 的 边界 时 。 在 C 语言 中 ， 没 有 可 靠 的 方法 来 防止 对 数 
组 的 越界 写 。 但是， 我 们 能 够 在 发 生 了 越界 写 的 时 候 ， 和 害 结果 之 前 ， 尝 试 检测 
到 它 。 

最 近 的 GCC 版 本 在 产生 的 代码 中 加 入 了 一 种 栈 保护 者 〈stack protector) 机 制 ， 用 来 
检测 缓冲 区 越界 。 其 思想 是 在 栈 帧 中 任何 局 部 缓冲 区 与 栈 状态 之 间 存 储 一 个 特殊 的 金 丝 罕 
(canary) 值 9， 如 图 3-33 所 示 区 约 。 这 个 金 丝 雀 值 ， 也 称 为 哨兵 值 〈guard value)， 是 在 程序 每 
次 运行 时 随机 产生 的 ， 因 此 ， 攻 击 者 没有 简单 的 办 法 能 够 知道 它 是 什么 。 在 恢复 寄存 器 状态 和 从 
了 消 数 返回 之 前 ， 程 序 检 查 这 个 金 丝 淮 值 是 否 被 该 阻 数 的 某 个 操作 或 者 该 函数 调用 的 某 个 函数 的 某 
个 操作 改变 了 。 如 果 是 ， 那 么 程序 异常 中 止 。 





日 术语 “ 金 丝 举 ” 源 于 历史 上 用 这 种 鸟 在 煤矿 中 察觉 有 毒 的 气体 。 
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调用 者 i 

的 栈 帧 ] 性， 、 
保存 的 sebp |< 一 %ebp 

加 | 四 [Do | bn 





echo 


的 栈 帧 


图 3-33，echo 函数 具有 栈 保 护 者 的 栈 组 织 〈 在 数组 buf 和 保存 的 状态 之 间 放 了 一 个 
特殊 的 “ 金 丝 乱 ” 值 ， 代 码 检查 该 值 ， 确 定 栈 状态 是 否 被 破坏 ) 


最 近 的 GCC 版 本 会 试 着 确定 一 个 函数 是 否 容易 遭受 栈 溢出 攻击 ， 并 且 自 动 插入 这 种 溢出 检 
测 。 实 际 上 ， 对 于 前 面 的 栈 洲 出 展示 ， 我 们 不 得 不 用 命令 行 选项 “-fno-stack-protector” 
来 阻止 GCC 产生 这 种 代码 。 当 不 用 这 个 选项 来 编译 echo 函数 时 ， 也 就 是 允许 使 用 栈 保护 者 ， 
我 们 得 到 下 面 的 汇编 代码 : 


| echo: 

2 pushl  %ebp 

3 movl hesp, hebp 

4 pushl %ebx 

5 subl $20，%esp 

6 moV] %gS:20, heax Retrieve canary 

7 movl weax, -8(hebp) Store on stack 

8 xorl %eax, heax Zero out register 

9 leal -16(%ebp) ,hebx Compute buf a8 Webp-16 
10 movl hebx, (hesp) Store buf at top of stack 
11 call gets Call gets 

12 movl hebx, (hesp) Store buf at top of stack 
13 call puts Call puts 
14 movl -8(%ebp) , heax Retrieve canary 

15 Xorl hES :20,，%eax Comparg to stored valiue 
16 je .L19 if =, gOtO Ok 

7 .Call __stack_chk_fail a corrupted! 

18 .L19: ok: 

19 addl $20，%esp Normal return ... 
20 popl hebx 
21 popl hebp 
22 ret 


这 个 版 本 的 函数 从 存储 器 中 读 出 一 个 值 〈 第 6 行 )， 再 把 它 存 放 在 栈 中 相对 于 sebp 偏 移 量 
为 -8 的 地 方 。 指 令 参数 %gs :20 指明 金 丝 稚 值 用 段 寻 址 (segmented addressing) 从 存储 器 中 读 
入 ， 段 寻 址 机 制 可 以 追溯 到 80286 的 寻 址 ， 而 在 现代 系统 上 运行 的 程序 中 已 经 很 少见 到 了 。 将 金 
丝 淮 值 存放 在 一 个 特殊 的 段 中 ， 标 志 为 “只 读 ”， 这 样 攻击 者 就 不 能 覆盖 存储 的 金 丝 淮 值 。 在 恢 
复 寄存 器 状态 和 返回 前 ， 函 数 将 存储 在 栈 位 置 处 的 值 与 金 丝 人 省 值 做 比较 (通过 第 15 行 的 xor1 
指令 )。 如 果 两 个 数 相同 ，xor1 指令 就 会 得 到 0， 函 数 会 按照 正常 的 方式 完成 。 非 零 的 值 表 明 栈 
上 的 金 丝 八 值 被 修改 过 ， 那 么 代码 就 会 调用 一 个 错误 处 理 例 程 。 

栈 保护 很 好 地 防止 了 缓冲 区 溢出 攻击 破坏 存储 在 程序 栈 上 的 状态 。 它 只 会 带 来 很 小 的 性 能 损 
失 ， 特 别 是 因为 GCC 只 在 函数 中 有 局 部 char 类 型 缓冲 区 的 时 候 才 插 和 人 这样 的 代码 。 当 然 ， 也 
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有 其 他 一 些 方法 会 破坏 一 个 正在 执行 的 程序 状态 ， 但 是 降低 栈 的 易 受 攻击 性 能 够 对 抗 许多 常见 的 

攻击 策略 。 

| 练习 题 3.45 函数 intlen， 和 函数 len 和 iptoa 一 起 ， 提 供 了 一 种 很 纠结 的 方式 ， 来 计算 表示 一 
个 整数 所 需要 的 十 进 制 数字 的 个 数 。 我 们 利用 它 来 研究 GCC 栈 保护 者 措施 的 一 些 情况 。 


int len(char *s) { 
return strlen(s); 





小 
void iptoa(Cchar *s, int *p) 
{ 
int val = *p; 
sprintf(s, "%d", val); 
} : 
int intlen(int x) { 
int v; 
char buf [12]; 
V= XxX; : 
iptoa(buf , &v); 
return len(buf); 
} 
下 面 是 intlen 的 部 分 代码 ， 分 别 由 带 和 不 带 栈 保 护 者 编译 : 
不 带 保护 者 
1 subl $36,%esp 
2 movl 8(%ebp) ,heax 
3 movl %eax, -8(%ebp) 
4 leal -8(hebp) ， heax 
5 movV1 Xeax，4(%esp) 
6 leal -20(%ebp) ，%ebx 
7 movl webx, (wesp) 
8 call iptoa 
带 保护 者 
1 subl $52, wesp 
2 movl hES :20，peax 
3 movl %eax, -8(%ebp) 
4 XxXorl Weax, heax 
5 movl 8(X%ebp) ，%eax 
6 movl %eax, -24(%ebp) 
7 leal -24(%ebp), %eax 
8 movl Xeax, 4(%esp) 
9 leal -20(%ebp) ， %ebx 
0 movl hebx, (%esp) 
| 


call iptoa 


A. 对 于 两 个 版 本 : buf、V 和 人 金 丝 省 值 ( 如 果 有 的 话 ) 分 别 在 栈 帧 中 的 什么 位 置 ? 

B. 在 有 保护 的 代码 中 ， 对 局 部 交 量 重新 排列 如 何 提供 更 好 的 安全 性 ， 以 对 抗 缓冲 区 越界 攻击 。 

3. 限制 可 执行 代码 区 域 : 

最 后 一 招 是 消除 攻击 者 向 系统 中 插入 可 执行 代码 的 能 力 。 一 种 方法 是 限制 那些 能 够 存放 可 
执行 代码 的 存储 器 区 域 。 在 典型 的 程序 中 ， 只 有 保存 编译 器 产生 的 代码 的 那 部 分 存储 器 才 需 要 
是 可 执行 的 。 其 他 部 分 可 以 被 限制 为 只 允许 读 和 写 。 正 如 第 9 章 中 看 到 的 ， 虚 拟 存储 器 空间 在 
逻辑 上 被 分 成 了 页 (page)， 典 型 的 每 页 是 2048 或 者 4096 个 字 节 。 硬 件 支持 多 种 形式 的 存储 
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器 保护 ， 能 够 指明 用 户 程序 和 操作 系统 内 核 所 允许 的 访问 形式 。 许 多 系统 允许 控制 三 种 访问 形 - 
式 : 读 (从 存储 器 读数 据 )、 写 (存储 数据 到 存储 器 ， 和 执行 〈 将 存储 器 的 内 容 看 作 是 机 器 级 
代码 )。 以 前 ，x86 体系 结构 将 读 和 执行 访问 控制 合并 成 一 个 1 位 的 标志 ， 这 样 任何 被 标记 为 
可 读 的 页 也 都 是 可 执行 的 。 栈 必须 是 既 可 读 又 可 写 的 ， 因 而 栈 上 的 字 节 也 都 是 可 执行 的 。 已 经 
实现 的 很 多 机 制 ， 能 够 限制 一 些 页 是 可 读 但 是 不 可 执行 的 ， 然 而 这 些 机 制 通常 会 带 来 严重 的 性 
能 损失 。 

最 近 ，AMD 为 它 的 64 位 处 理 器 的 内 存 保护 引信 了 “NX”(No-eXecute， 不 执行 ) 位 ， 将 读 
和 执行 访问 模式 分 开 ， 并 且 Intel 也 跟 进 了 。 有 了 这 个 特性 ， 栈 可 以 被 标记 为 可 读 和 可 写 ， 但 是 
不 可 执行 ， 检 查 页 是 否 可 执行 由 硬件 来 完成 ， 效 率 上 没有 损失 。 

有 些 类 型 的 程序 要 求 动态 产生 和 执行 代码 的 能 力 。 例 如 ,“ 即 时 ”(just-in-time) 编译 技术 为 
解释 语言 (例如 Java) 编写 的 程序 动态 地 产生 代码 ， 以 提高 执行 性 能 。 是 否 能 够 将 可 执行 代码 
限制 在 由 编译 器 在 创建 原始 程序 时 产生 的 那个 部 分 中 ， 取 决 于 语言 和 操作 系统 。 

我 们 讲 到 的 这 些 
于 最 小 化 程序 缓冲 区 溢出 攻击 漏洞 三 种 最 常见 的 机 制 。 它 们 都 具有 同样 的 属性 ， 即 不 需要 程序 员 
做 任何 特殊 的 努力 ， 带 来 的 性 能 代价 都 非常 小 ， 甚 至 没有 。 单 独 每 一 种 机 制 都 降低 了 漏洞 的 等 
级 ， 而 组 合 起 来 ， 它 们 变 得 更 加 有 效 。 不 幸 的 是 ， Wd 和 全 “， 因 而 蠕虫 
和 病毒 继续 危害 着 许多 机 器 的 完整 性 。 


网 络 旁 注 ASM : EASM 将 C 语言 程序 与 汇编 代码 结合 起 来 

虽然 C 编译 器 在 将 程序 中 表达 的 计算 转换 成 机 器 代码 方面 ， 做 得 很 好 ， 但 是 仍然 有 一 些 机 
器 特性 是 C 程序 访问 不 了 的 。 例 如 ，IA32 机 器 有 一 个 条 件 码 PF (奇偶 校 验 标 志 )， 当 计算 结果 
的 低 8 位 有 偶数 个 1 时 ， 被 设置 为 1。 在 C 语 言 中 要 计算 出 这 个 信息 至 少 需 要 7 个 移 位 、 掩 码 和 
异 或 运算 〈 参 见 家 庭 作 业 2.65)。 具 有 讽刺 意味 的 是 ， 硬 件 作 为 每 个 算术 或 者 还 辑 运算 的 一 部 分 ， 
已 经 执行 了 这 个 计算 ， 但 是 C 程序 没有 办 法 获得 PF 条 件 码 的 值 。 

在 C 语 言 中 播 入 汇编 代码 有 两 种 方法 。 第 一 种 方法 是 ， 可 以 写 一 个 完整 的 函数 作为 一 个 独 
立 的 汇编 代码 文件 ， 然 后 让 汇编 器 和 链接 器 将 这 个 文件 与 C 语言 写 的 代码 结合 起 来 。 第 二 种 方 
法 是 ， 使 用 GCC 的 内 联 汇编 (inline assembly) 的 特性 ， 可 以 用 asm 命令 将 一 些 简短 的 汇编 代 
码 插入 到 C 程序 中 。 这 种 方法 的 优点 是 它 尽 可 能 地 减少 了 与 机 器 相关 的 代码 的 数量 。 

当然 ， 在 C 程序 中 包括 汇编 代码 使 代码 只 能 针对 某 一 类 的 机 器 〈 比 如 IA32)， 因 此 只 有 当 想 
要 的 特性 只 能 用 这 种 方式 才能 访问 时 ， 才 使 用 这 种 方法 。 


3.13 x86-64 : 将 IA32 扩展 到 64 位 


许多 年 来 ，Intel 的 IA32 指令 集体 系 结构 (ISA) 一 直 是 世界 上 计算 机 中 占 主 导 地 位 的 指 今 
格式 。 自 从 2006 年 以 来 ，IA32 是 大 多 数 Windows、Linux， 甚 至 包括 Macintosh 计算 机 的 平台 选 
择 。 今 天 使 用 的 IA32 格式 中 的 大 部 分 是 在 1985 年 随 着 i386 微 处 理 器 的 出 现 所 定义 的 ， 当 时 是 
将 原来 8086 的 16 位 指令 集 扩展 到 了 32 位 。 虽 然后 续 的 处 理 器 系列 引入 了 新 的 指令 类 型 和 格式 ， 
但 是 为 了 保持 后 向 兼容 性 ， 许 多 编译 器 ， 包 括 GCC， 都 避免 使 用 这 些 特 性 。 例 如 ， 我 们 在 3.6.6 
节 中 看 到 ， 条 件 传送 指令 ， 是 Intel 在 1995 年 引入 的 ， 比 起 更 传统 的 条 件 分 支 ， 能 够 产生 显著 的 
性 能 提升 ， 但 是 在 大 多 数 的 GCC 配置 中 ， 都 不 会 产生 这 样 的 指令 。 

我 们 正在 经 历 一 个 向 Intel 指令 集 64 位 版 本 的 过 渡 。 最 初 由 Advanced Micro Devices (AMD ) 
提出 并 命名 为 x86-64， 现 在 它 被 大 多 数 AMD 的 处 理 器 (AMD64) 和 Intel (Intel64) 所 支持 。 
大 多 数 人 还 是 称 之 为 “x86-64”， 我 们 也 沿用 这 种 习惯 。( 有 些 厂商 简称 为 “x64”)。 虽 然 系统 还 
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是 只 运行 这 些 操作 系统 的 32 位 版 本 ， 但 是 较 新 的 Linux 和 Windows 版 本 都 支持 这 种 扩展 。 在 
GCC 支持 x86-64 的 扩展 工作 中 ， 开 发 者 也 看 到 一 个 利用 某 些 加 入 到 更 新 IA32 处 理 器 系列 中 的 
特性 的 机 会 。 

新 硬件 和 修改 的 编译 器 的 这 种 组 合 使 x86-64 的 代码 在 形式 和 性 能 上 都 与 IA32 的 代码 不 同 。 
在 创建 64 位 扩展 中 ，AMD 的 工程 师 采 用 了 一 些 精简 指 今 集 计 算 机 (RISC) ® 中 能 见 到 的 特性 ， 
使 得 它们 成 为 优化 编译 器 喜欢 的 目标 。 例 如 ， 现 在 有 16 个 通用 目的 寄存 器 ， 而 不 是 原始 的 8086 
中 限制 性 能 的 8 个 。GCC 的 开发 者 能 够 利用 这 些 特性 ， 以 及 更 新 的 几 代 IA32 体系 结构 ， 来 获得 
显著 的 性 能 提升 。 例 如 ， 现在 过 程 参数 是 通过 寄存 器 而 不 是 栈 来 传递 的 ， 极 大 地 减少 了 存储 器 读 
写 操作 的 数量 。 

本 节 作 为 我 们 对 IA32 描述 的 一 个 补充 ， 描 述 了 为 适应 x86-64 在 硬件 和 软件 支持 中 所 做 的 
扩展 。 我 们 假设 读者 已 经 熟悉 了 IA32， 从 AMD 和 Intel 如 何 进 入 到 x86-64 的 一 个 简短 的 历史 开 
始 ， 接 着 总 结 x86-64 代码 区 别 于 IA32 代码 的 主要 特性 ， 最 后 分 别 介绍 每 个 特性 。 

3.13.1 x86-64 的 历史 和 动因 

自 1985 年 i386 出 现 以 后 的 许多 年 间 ， 微 处 理 器 的 能 力 有 了 很 大 的 改变 。1985 年 ， 一 台 全 配 
置 的 高 端 桌 面 计 算 机 ， 例 如 Sun Microsystems 销售 的 Sun-3 工作 站 ， 最 多 有 8MB 随机 访问 存储 
器 (RAM) 和 100M 硬盘 存储 。 它 采用 Motorola 68020 微 处 理 嚣 (那个 年 代 的 Intel 微 处 理 器 还 
没有 高 端 机 器 所 需 的 特征 和 性 能 )，12.5MHz 时 钟 ， 每 秒 运 行 4 百 万 条 指令 。 现 在 ， 一 个 典型 的 
高 端 桌 面 系统 有 4GB RAM (增加 了 512 倍 )，1TB 磁盘 存储 (增加 了 10 000 倍 )， 大 约 4GHz 时 
钟 ， 每 秒 运 行 大 约 50 亿 条 指令 (增加 了 1250 倍 )。 基 于 微 处 理 器 的 系统 已 经 变 得 很 普遍 。 即 使 
今天 的 超级 计算 机 也 是 基于 利用 许多 微 处 理 器 并 行 计算 的 能 力 。 考虑 到 这 样 大量 的 进步 ， 世 界 上 
大 多 数 的 计算 机 运行 的 代码 还 是 与 1985 年 的 机 器 兼容 的 二 进 制 代码 ， 这 就 很 奇特 了 《〔 除 非 这 些 
机 器 没有 足够 的 存储 器 来 处 理 今 天 的 操作 系统 和 应 用 )。 

IA32 的 32 位 字 长 已 经 成 为 限制 微 处 理 器 能 力 不 断 增长 的 主要 因素 。 最 重要 的 是 ， 机 器 的 
字 长 定义 了 程序 能 够 使 用 的 虚拟 地 址 范围 ，32 位 字 长 就 是 4GB 虚拟 地 址 空间 。 现 在 机 器 很 容 
易 就 可 以 配置 4G 以 上 的 RAM， 但 是 系统 却 不 能 有 效 利 用 它 。 对 于 需要 处 理 大 数据 集 的 应 用 比 
如 科学 计算 、 数 据 库 和 数据 挖掘 来 说 ，32 位 字 长 使 程序 员 工作 起 来 非常 困难 。 他 们 必须 使 用 核 
心 外 的 〈out-of-core) 算法 9 来 编写 代码 ， 也 就 是 数据 存放 在 磁盘 上 ， 并 且 显 式 地 读 到 存储 器 中 

以 便 处 理 。 

计算 技术 的 进一步 发 展 要 求 演变 到 更 大 的 字 长 。 沿用 字 长 翻 倍 的 传统 ， 合乎 逻辑 的 下 一 
步 就 是 64 位 。 实 际 上 ，64 位 机 器 已 经 出 现 很 长 时 间 了 。 数 字 设 备 公 司 (Digital Equipment 
Corporation) 在 1992 年 发 布 了 Alpha 处 理 器 ， 很 受 高 端 计算 的 欢迎 。Sun Microsystems 在 1995 
年 发 布 了 SPARC 体系 结构 的 64 位 版 本 。 然 而 此 时 ，Intel 还 不 是 一 个 高 端 计算 机 的 很 有 力 的 竞 
争 者 ， 所 以 公司 也 没有 太 大 的 压力 要 转换 到 64 位 上 。 

Intel 进入 64 位 计算 机 领域 打 啊 的 第 一 枪 是 Itanium 处 理 器 ， 它 基 于 一 种 全 新 的 指令 集 ， 称 
为 “IA64”。Intel 一 贯 的 策略 是 每 次 引入 新 一 - 代 微 处 理 器 时 还 要 维持 后 向 兼容 性 ， 而 这 次 不 
同 ，IA64 是 基于 与 Hewlett-Packard 一 起 开发 的 一 种 思 新 的 方法 。 它 的 超 长 指令 字 〈Very Large 
Instruction Word，VLIW) 格式 将 多 条 指令 打包 到 一 起 ， 允许 更 高 程度 的 并 行 执行 。 证 明 IA64 的 
实现 是 很 难 的 ， 因 此 第 一 批 Ianium 芯片 直到 2001 年 才 出 现 ， 而 且 在 真实 应 用 上 没有 达到 预期 
的 性 能 。 虽 然 基于 Itanium 系统 的 性 能 有 所 提高 ， 但 却 没有 获得 重要 的 计算 机 市 场 份额 。 Itanium 


”日 机 器 的 物理 内 存 通 常 称 为 核心 内 存 (core memory)， 那 时 候 随 机 访问 存储 器 的 每 一 位 都 是 用 一 个 铁 氧 体 磁 心 
(magnetized ferrite core) 来 实现 的 。 
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机 器 可 以 在 兼容 模式 中 执行 we Ne 但 是 性 能 不 太 好 。 大 多 数 用 户 耳 愿 使 用 比较 便宜 并 且 常 
常 更 快 的 基于 IA32 的 系统 。 

同时 ，Intel 的 主要 竞争 对 手 ， Advanced Micro Devices (AMD ) 看 到 一 个 机 会 去 利用 Intel 在 
IA64 上 的 失败 。 多 年 来 ，AMD 在 技术 上 总 是 落后 Intel 一 点 点 ， 所 以 他 们 总 是 被 迫 跟 Intel 打 价 
格 战 。 通 常 ，Intel 推出 一 款 新 的 处 理 器 ， 价 格 会 溢价 。AMD 会 在 6 到 12 个 月 后 跟 进 ， 必 须 以 
比 Intel 低 很 多 的 价格 获得 销量 一 一 这 个 策略 行 之 有 效 ， 但 是 利润 非常 低 。2003 年 ，AMD 推出 
了 基于 “x86-64” 指 令 集 的 64 位 微 处 理 器 。 顾 名 思 义 ，x86-64 是 Intel 指令 集 到 64 位 的 一 个 演 
化 。 它 保持 了 与 IA32 完全 的 后 向 兼容 性 ， 并 且 又 增加 了 新 的 数据 格式 ， 以 及 其 他 一 些 特性 ， 使 
得 能 力 更 强 ， 性 能 更 高 。 通 过 x86-64，AMD 获得 了 以 前 属于 Intel 的 一 些 高 端 市 场 。 事 实证 明 
AMD 最 近 的 几 代 处 理 器 是 非常 成 功 的 高 性 能 机 器 。 最 近 ，AMD 将 这 个 指令 集 更 名 位 AMD64， 
但 是 大 家 还 是 对 “x86-64” 这 个 名 字 更 喜欢 一 些 。 

Intel 意识 到 ， 将 IA32 完 全 蔡 换 成 IA64 的 策略 是 行 不 通 的 。 因 而 在 2004 年 ，Pentium 4 
Xeon 产品 线 的 处 理 器 开始 支持 自己 的 x86-64 变种 。 由 于 “IA64” 这 个 名 字 已 经 指 代 Itanium 了 ， 
这 时 他 们 面临 一 个 难题 ， 该 如 何 为 这 个 64 位 扩展 找 一 个 他 们 自己 的 名 字 。 最 终 决 定 将 x84-64 描述 
成 对 IA32 的 一 个 增强 ， 因 而 称 之 为 IA32-EM64T， 表 示 “ 增 强 的 存储 器 64 位 技术 ”(Enhanced 
Memory 64-bit Technology )。 2006 年 后 期 ， 他 们 采用 了 Intel64 这 个 名 字 。 

在 编译 器 方面 ，GCC 的 开发 者 坚定 地 保持 与 1386 的 二 进 制 兼容 性 ， 即 使 是 IA32 指令 集中 
添加 了 有 用 的 特性 ， 包 括 条 件 传送 和 更 现代 的 浮 点 指令 集 。 只 有 以 特殊 的 命令 行 选项 设置 编译 
时 ， 才 会 使 用 这 些 特性 。 将 转换 到 x86-64 作为 目标 ， 向 Gcc 提供 了 一 个 放弃 后 向 兼容 性 的 机 
会 ， 只 用 标准 的 命令 4 了 选项 就 能 利用 这 些 新 特性 。 

”本 书 用 “IA32” 指 代 基 于 Intel 的 机 器 上 运行 传统 32 位 Linux 版 本 时 ， 硬 件 和 GCC 代码 
的 组 合 。 用 “x86-64” 指 代 在 AMD 和 Intel 的 较 新 的 64 位 机 器 上 运行 的 硬件 和 代码 组 合 。 用 
Linux 和 GCC 的 话 来 说 ， 这 两 个 平台 分 别称 为 “i386” 和 “x86-64”。 

3.13.2 x86-64 简介 

Intel 和 AMD 提供 的 新 硬件 和 以 这 些 机 器 为 目标 的 GCC 新 版 本 的 组 合 ， 使 得 x86-64 代码 与 
为 IA32 机 器 生成 的 代码 有 极 大 的 不 同 。 主 要 特性 如 下 : 

* 指针 和 长 整数 是 64 位 长 。 整 数 算术 运算 支持 8、16、32 和 64 位 数据 类 型 。 

*。 通用 目的 寄存 器 组 从 8 个 扩展 到 16 个 。 

“。 许 多 程序 状态 都 保存 在 寄存 器 中 ， 而 不 是 栈 上 。 整 型 和 指针 类 型 的 过 程 参 数 (最 多 6 个 ) 

通过 寄存 器 传递 . 有 些 过 程 根 本 不 需要 访问 栈 。 

。 如 果 可 能 ， 条 件 操 作用 条 件 传送 指令 实现 ， 会 得 到 比 传统 分 支 代码 更 好 的 性 能 。 

“ 浮 扣 操作 用 面向 寄存 器 的 指令 集 (SSE 版 本 2 引入 的 ) 来 实现 ， 而 不 用 IA32 支持 的 基于 

栈 的 方法 来 实现 。 

1. 数据 类 型 

图 3-34 给 出 了 x86-64 各 种 C 语言 数据 类 型 的 大 小 ， 以 及 与 IA32〈 最 右边 一 列 ) 的 比较 。 
我 们 看 到 指针 〈 在 此 用 数据 类 型 char* 表示 ) 需要 8 个 字 节 ， 而 不 是 4 个 。Intel 称 之 为 四 字 
(quad word)， 因 为 它们 是 标准 16 位 “ 字 ” 的 四 倍 。 原 则 上 说 ， 这 给 了 程序 访问 2” 字 节 或 者 
16EB 〈exabyte) (大 约 18.4X10 字 节 ) 存储 器 的 能 力 。 看 上 去 这 个 存储 器 容量 似乎 很 惊人 ， 但 
是 要 记得 20 世纪 70 年 代 晚 期 ， 第 一 批 32 位 机 器 出 现 的 时 候 ，4GB 的 存储 器 容量 看 上 去 也 是 很 
惊人 的 。 实 际 上 ， 大 多 数 机 器 并 不 是 真 的 支持 完全 地 址 范围 一 一 当前 的 AMD 和 Intel x86-64 机 
器 只 支持 256TB (2 字 节 ) 虚拟 存储 器 一 一 但 是 为 指针 分 配 完 全 的 64 位 ， 从 长 远 的 兼容 性 角度 
来 说 ， 是 个 好 主意 。 
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Intel 数 据 类 型 汇编 代码 后 级 3 


char 

short 

int 

long int 
long long int 
char * 

float 

double 

long double 


图 3-34 x86-64 的 标准 数据 类 型 大 小 (与 IA32 比较 ， 长 整数 和 指针 需 8 个 字 节 ， 而 IA32 只 需 4 个 字 节 ) 


我 们 还 看 到 前 级 “1ong” 将 整数 变 成 了 64 位 ， 可 以 表示 的 值 的 范围 大 了 很 多 。 实 际 上 , 数 
据 类 型 long 与 Iong long 变 成 一 样 的 了 。 此 外 ， 硬 件 提 供 的 寄存 器 可 以 容纳 64 位 整数 以 及 
对 这 样 的 四 字 进 行 操作 的 指令 。 

和 IA32 一 样 ，long 前 级 也 将 一 个 浮 点 double 变 成 了 使 用 IA32 支持 的 80 位 格式 (2.4.6 
节 )。 这 些 位 存储 在 存储 器 中 ， 对 x86-64 来 说 ， 分 配 16 个 字 节 ， 而 对 于 IA32 来 说 ， 分 配 的 是 

2 个 字 节 。 这 样 做 改进 了 存储 器 读 写 操作 的 性 能 ， 通 常 存储 器 读 写 每 次 取 8 个 或 者 16 个 字 节 。 

不 管 是 分 配 12 个 字 节 还 是 16 个 字 节 ， 实 际 只 会 用 到 最 低位 的 10 个 字 节 。 另 外 ， 只 有 较 老 的 一 
类 浮 点 指令 才 支 持 long double 数据 类 型 ， 这 类 指令 具有 一 些 与 众 不 同 的 属性 (参见 网 络 旁 
注 DATA:IA32-FP)， 而 较 新 的 SSE 指令 支持 float 和 double 数据 类 型 。 只 有 需要 扩展 精度 格 
式 提供 的 超出 双 精 度 格式 的 额外 精度 和 范围 的 程序 才 应 该 使 用 long double 数据 类 型 
ES 练习 题 3.46 DRAM 是 实现 微 处 理 器 的 主 存储 器 的 存储 器 技术 ， 如 图 6-17b 所 示 ，DRAM 的 开销 从 

1980 年 的 每 MB8000 美元 下 降 到 了 2010 年 的 大 约 0.06 美元 ， 每 年 大 约 下 降 1.48 倍 ， 或 者 每 10 年 大 

约 下 降 51 倍 。 假 设 这 种 趋势 无 限 地 持续 下 去 〈 这 可 能 不 太 现实 )， 而 我 们 对 机 器 存储 器 的 预算 大 约 是 

1000 美元 ， 这 样 在 1980 年 我 们 能 为 机 器 配置 128KB 的 内 存 ， 而 在 2010 年 ， 可 以 配置 16.3GB。 

A. 估计 到 什么 时 候 用 1000 美元 的 预算 我 们 能 买 到 256TB 的 内 存 。 

B. 估计 到 什么 时 候 用 1000 美元 的 预算 我 们 能 买 到 16EB 的 内 存 。 

C. 如 果 我 们 把 DRAM 的 预算 提高 到 10 000 美元 ， 上 述 这 两 个 时 间 点 能 提前 多 久 到 来 ? 

2. 汇编 代码 示例 

在 3.2.3 节 中 ， 我 们 给 出 了 GCC 产生 的 simple 函数 的 IA32 汇编 代码 。C 代码 simple 1 
除了 使 用 长 整 型 之 外 类 似 于 simple 代码 如 下 : 


long int simple_l(long :int *xp, long int y) 


TF ooo 和 Uv 








long int t = *xp + y; 
*Xp = t; 
return 七 ; 


} 
在 x86-64 Linux 机 器 上 以 如 下 命令 行 运 行 GCC 


Unix> gcc -01 -9 -m32 code.c 


它 产生 与 任意 IA32 机 器 兼容 的 代码 如 下 我 们 为 代码 添加 了 注释 以 突出 哪些 指令 是 从 存储 器 读 
数据 (R)， 而 哪些 指令 是 向 存储 器 写 数据 (W)) : 
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TA32 implementation of function simple.1. 
Xp at Webp+8, y at hebp+12 
simple_l1: 


1 

2 pushl  %ebp Save frame pointer (W) 
3 movl hesp, %ebp Create new frame pointer 

4 movl 8(%ebp) , %edx Retrieve xp (R) 
5 movl 1i2(%ebp), %eax Retrieve 了 (R) 
6 addl (Xedx) , heax Add *xp to get t (R) 
7 movl Weax, (hedx) Store tt at xp (WW) 
8 popl hebp Restore fraime pointer (R) 
9 ret Return (BR) 


当 我 们 告诉 GCC 产生 x86-64 代码 时 
unix> gcc -01 -S -m64 code.c 


(大 多 数 机 器 上 不 要 求 有 标志 -m64) 我 们 得 到 非常 不 同 的 代码 : 


X86-64 version of function simple._1. 


xp in Lrdi, y in prsi 


1 simple_1: 

2 movqg rsi, hrax Copy y 

3 addq (Xrdi), %rax Add x*xp to get t (BR) 
4 movdg hrax, (%rdi) Store + at Xp {W) 
5 ret Return (R) 
一 些 关 键 区 别 如 下 : 


“没有 看 到 movl 和 addql 指令 ， 只 看 到 movq 和 addq。 指 针 和 声明 为 长 整 型 的 变量 都 是 
64 位 《四 字 ) 而 不 是 32 位 (长 字 )。 

* 我 们 看 到 64 位 的 寄存 器 〈 例 如 srsi 和 srdi， 而 不 是 sesi 和 sedi)。 过 程 将 返回 值 存 
放 在 寄存 器 szax 中 。 


“在 x86-64 的 版 本 中 没有 生成 栈 帧 。 这 消除 了 IA32 代码 中 建立 指令 〈 第 2 一 3 行 ) 和 去 除 


栈 帧 的 指令 〈 第 8 行 )。 
* 参数 xp 和 y 是 通过 寄存 器 (分 别 是 %rdi 和 %rsi) 传递 而 不 是 栈 传递 。 这 就 不 需要 从 存 
储 器 中 读 取 参数 。 

这 些 改变 导致 的 结果 是 : IA32 代码 由 8 条 指令 构成 ， 要 做 7 次 存储 器 引用 〈5 次 读 和 2 次 
写 )， 而 x86-64 代码 由 4 条 指令 构成 ， 要 做 3 次 存储 器 引用 (2 次 读 和 1 次 写 )。 这 两 个 版 本 的 
相对 性 能 严重 依赖 于 执行 它们 的 硬件 。 在 Intel Pentium 4E 〈Intel 第 一 批 支持 x86-64 的 机 器 ) 上 
运行 ， 我 们 发 现 每 次 调用 simple_1，JIA32 版 本 需要 大 约 18 个 时 钟 周期 ， 而 x86-64 版 本 只 需 
要 12 个 时 钟 周期 。 在 同样 的 机 器 上 运行 同样 的 C 代码 ， 有 50% 的 性 能 显著 提高 。 在 新 一 点 儿 的 
Intel Core i7 处 理 器 上 ， 我 们 发 现 两 个 版 本 都 需要 12 个 时 钟 周期 ， 说 明 没有 性 能 提高 。 在 试 过 的 
其 他 一 些 机 器 上 ， 人 性 能 的 差异 在 这 两 个 极端 之 间 。 通 常 ，x86-64 代码 更 简洁 ， 需 要 较 少 的 存储 
器 访问 ， 运 行 起 来 比 相应 的 IA32 代码 更 有 效率 一 些 。 

3.13.3 ”访问 信息 

图 3-35 是 x86-64 下 的 通用 寄存 器 组 。 与 IA32 的 寄存 器 (图 3-2) 相 比 ， 我 们 看 到 以 下 区 别 : 

“ 寄存 器 的 数量 翻 倍 至 16 个 。 

“所 有 的 寄存 器 都 是 64 位 长 。IA32 寄存 器 的 64 位 扩展 分 别 命 名 为 %$rax、%rcx、 ,Srdx、 

Srbx、%rsi、%rdi、%rsp 和 %rbp。 新 增加 的 寄存 器 命名 为 $r8 一 %r15。 : 
* 可 以 直接 访问 每 个 寄存 器 的 低 32 位 。 这 就 给 了 我 们 IA32 中 熟悉 的 那些 寄存 器 : seax、 
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Secx、%Sedx、Sebx、%esi、%edi、%esp 和 s%ebp， 以 及 8 个 新 32 位 寄存 器 : sr8d 一 $r15d。 


* 同 IA32 中 的 情况 一 样 ， 可 以 直接 访问 每 个 寄存 器 的 低 16 位 。 新 寄存 器 的 字 大 小 版 本 命名 
为 S$r8w ~ S$rl5w。 


“ 可 以 直接 访问 每 个 寄存 器 的 低 8 位。 在 IA32 中 ， 只 有 对 前 4 个 寄存 器 (%al、%cl、%dl 


污 


和 s%bl) 才 可 以 这 样 。 其 他 IA32 寄存 器 的 字 节 大 小 版 本 命名 为 Ssil、%dil、%spl 
和 %bpl。 新 寄存 器 的 字 节 大 小 版 本 命名 为 $r8b ~ $r15b。 

。 为 了 后 向 兼容 性 ， 具 有 单字 节操 作 数 的 指令 可 以 直接 访问 %rax、%rcx、%Srdx 和 %rbx 
的 第 二 个 字 节 。 


被 调用 者 保存 
第 4 个 参数 
第 3 个 参数 
第 2 个 参数 
第 1 个 参数 
被 调用 者 保存 
栈 指针 

第 5 个 参数 
第 6 个 参数 
调用 者 保存 
调用 者 保存 
被 调用 者 保存 
被 调用 者 保存 
被 调用 者 保存 


被 调用 者 保存 





图 3-35 .整数 寄存 器 。 已 有 的 8 个 寄存 器 扩展 到 64 位 版 本 ， 而 且 新 增 了 8 个 新 寄存 器 。 每 个 寄存 器 
都 可 以 作为 8 位 ( 字 节 )、16 位 ( 字 )、32 位 〈 双 字 ) 或 者 64 位 〈 四 字 ) 来 访问 


同 IA32 一 样 ， 大 多 数 寄存 器 可 以 互 换 使 用 ， 但 是 有 一 些 特殊 情况 。 寄 存 器 srsp 有 特殊 
的 状态 ， 它 会 保存 指向 栈 顶 元 素 的 指针 。 与 IA32 不 同 的 是 ， 没 有 帧 指针 寄存 器 ;可 以 用 寄存 
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器 srbp 作为 通用 寄存 器 。 然 而 通过 寄存 器 传递 过 程 参数 ， 以 及 在 过 程 调用 时 如 何 保存 和 恢 
复 寄 存 器 ， 都 有 一 些 特别 的 规定 ， 将 在 3.13.4 节 讨 论 。 此 外 ， 有 一 些 算术 指令 对 寄存 器 有 Srax 
和 %rdx 有 特殊 的 用 法 。 

大 部 分 x86-64 操作 数 指 示 符 与 IA32 中 的 和 (参见 图 3-3 )， 人 
变 址 寄存 器 指示 符 必 须 使 用 寄存 器 的 “rz ”版 本 (例如 srax)， 而 不 是 它 的 “e” 版 本 。 除 了 
IA32 的 寻 址 方式 外 ， 它 还 支持 一 些 PC (PC-relative) 操作 数 寻 址 方式 。 中 ， 只 
有 对 跳 转 和 其 他 控制 转移 指令 才能 支持 这 种 寻 址 方式 (参见 3.6.3 节 )。 提 供 这 种 模式 为 了 弥 
补 偏 移 量 (图 3-3 中 的 Imm) 只 有 32 位 长 度 的 情况 。 将 这 个 字段 看 作 32 位 补 码 数 ， 指 令 可 
以 访问 窗口 为 相对 于 程序 计数 器 大 约 土 2.15X10 范围 内 的 数据 。x86-64 中 ， 程 序 计 数 器 命名 
为 $rip。 

下 面 的 过 程 是 一 个 PC 相对 数据 寻 址 的 示例 ， 它 调用 前 面 看 到 过 的 二 醒 数 ， 


long int gvali = 567 ; 
long int gval2 = 763, 


long int call_simple_1() 
long int z = simple_l(&gvali, 12L); 
return Z + gval2; 


} 


这 段 代码 引用 全 局 变量 gvall 和 gval2。 当 编 译 、 汇编 和 链接 这 个 函数 旦 ， 我 们 得 到 下 面 
的 可 执行 代码 (由 反 汇 编 圳 objdump 产生 的 ) : 


0000000000400541 <call_simple_1>: 


| 

2 400541: be 0c 00 00 00 movV $Oxc ,hesi Load 12 as 2nd argument 

3 400546: bf 20 10 60 00 moOV $0x601020 ,%edi Load &evall as ist argument 
4 40054b: 8 c3 ff ff ff callq 400513 <simple_1> Call simple.1 

5 400550: 48 03 05 dl 0a 20 00 add Ox200ad1(%rip),%rax had gval2 to result 

6 400557: c3 retq Return 


第 3 行 的 指令 将 全 局 变量 gvall 的 地 址 存放 在 寄存 器 $rdi 中 。 这 是 通过 把 常数 值 0x601020 
复制 到 寄存 器 $edi 中 来 实现 的 。%rdi 的 高 32 位 自动 被 设置 为 0。 第 5 行 的 指令 获取 gval12 
的 值 ， 将 它 加 到 谋 
0x200ad1 加 上 下 面 一 条 指令 的 地 址 得 到 0x200ad1+0x400557=0x601028。 

图 3-36 记录 了 一 些 x86-64 中 可 用 而 IA32 中 没有 的 数据 传送 指令 (参见 图 3-4)。 一 些 指令 
要 求 目 标 是 寄存 器 ， 用 R 表示。 其 他 一 些 的 目标 可 以 是 寄存 器 或 者 存储 器 地 址 ， 用 D 表示 。 这 
些 指 令 中 的 大 多 数 都 落 入 IA32 中 可 以 看 到 的 一 类 指令 。 另 外 ，movabsq 指令 没有 对 应 的 IA32 
指令 ， 它 可 以 将 一 个 完全 的 64 位 立即 数值 复制 到 它 的 目的 寄存 器 。 当 movq 指令 有 一 个 立即 数 
值 作为 源 操作 数 时 ， 如 果 这 个 立即 数 是 一 个 32 位 的 值 ， 会 被 符号 扩展 至 64 位 。 

从 较 小 的 数据 大 小 传送 到 较 大 的 数据 大 小 可 以 用 符号 扩展 (MOVS) 或 者 零 扩 展 〈MOV2Z )。 
可 能 有 些 出 乎 意料 ， 传 送 或 者 产生 32 位 寄存 器 值 的 指令 也 会 将 寄存 器 的 高 32 位 设置 为 0。 :结果 
就 不 需要 指令 movzl1q。 类 似 地 ， 当 目的 是 寄存 器 时 ， 指 令 movzbq 与 movzbl 有 完全 一 样 的 
行为 一 一 将 目的 寄存 器 的 高 56 位 设置 为 0。 这 条 指令 与 那些 产生 8 位 或 者 16 位 值 的 指令 (例如 
movb) 不 同 ， 那 些 指令 不 新 的 栈 指令 pushq 和 popq 允许 压 人 和 弹 
出 64 位 值 。 W 
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movabsq J/,R RI 

MOV S$,D DS 

movq 传送 四 字 

MOVS $,D D 二 SignExtend(9) 


movsbq 符号 扩展 字 节 传送 四 字 
movswq 符号 扩展 字 传 送 四 字 


movslq 符号 扩展 双 字 传送 四 字 
MOVZ D <— ZeroExtend(9) 
movzbq 零 扩展 字 节 传送 四 字 
movzwq 零 扩 展 字 传 送 四 字 
pushq R[%rsp] < R[%rsp] — 8; 
MI[R[%rsp]] 二 
popq D D 二 MI[R[%rsp]j; 
R[%rsp] <— R[%rsp] 二 8 
图 3-36 ”数据 传送 指令 。 这 些 指令 是 对 IA32 的 传送 指令 (图 3-4) 的 补充 。movabsq 指令 只 允许 用 
立即 数 〈 用 了 表示 ) 作为 源 值 。 其 他 指令 允许 立即 数 、 寄 存 器 或 者 存储 器 (用 S$ 表示 )。 有 
些 指 令 要 求 目的 是 寄存 器 (用 尺 表示 )， 而 其 他 的 指令 允许 用 寄存 器 或 存储 器 作为 目的 (用 
DD 表示 ) 
民治 练习 题 3.47 下 面 的 C 函数 将 类 型 为 src 七 的 参数 转换 成 类 型 dst t 并 返回 ， 这 里 两 种 类 型 用 
typedef 定义 : 








dest_t cvt(src_t x) 

{ 
dest_t y = (dest._t) x; 
return y; 


} 


假设 参数 x 存放 在 寄存 器 rdi 的 菜 个 适当 命名 的 部 分 ( 即 %rdi、%edi、%di 或 者 $dil)， 假 设 使 
用 某 种 形式 的 数据 传送 指令 来 执行 这 个 类 型 转换 ， 并 将 这 个 值 复制 到 寄存 器 %rax 的 某 个 适当 命名 的 
部 分 。 填 写 下 表 ， 指 明 为 下 面 的 源 类 型 和 目的 类 型 组 合 ， 使 用 的 指令 、 源 寄存 器 和 目的 寄存 器 。 


long long 
int long 
char long 


unsigned int unsigned long 
unsigned char unsigned long 
long int 

unsigned long | unsigned 





算术 指令 

在 图 3-7 中 ， 我 们 列 出 了 许多 算术 和 逻辑 指令 ， 用 类 名 〈 例 如 “ADD”) 来 表示 针对 不 同 操 
作 数 大 小 的 指令 ， 例 如 addb ( 字 节 )、addw 〈( 字 ) 和 addl (长 字 )。 现 在 ， 我 们 为 每 一 类 指令 
增加 了 在 四 字 上 进行 运算 的 指令 ， 后 缀 为 “q’”。 这 些 四 字 指 邻 的 例子 包括 leaq (加载 有 效 地 
址 )、incq (加 1)、addq 加 法 ) 和 salq ( 左 移 )。 这 些 四 字 指 令 有 与 它们 对 应 的 较 短 操作 数 
的 指令 一 样 的 参数 类 型 。 正 如 前 面 提 到 的 ， 产 生 32 位 寄存 器 结果 的 指令 ,例如 addl， 也 会 将 
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寄存 器 的 高 32 位 设置 为 0。 产生 16 位 结果 的 指令 ， 例 如 addw， 只 会 影响 它们 的 16 位 目的 寄存 
器 ， 产 生 8 位 结果 的 指令 也 是 类 似 。 对 于 movq 指令 ， 立 即 数 操作 数 被 限制 为 32 位 ， 所 以 会 做 
符号 扩展 到 64 位 。 

当 不 同 大 小 的 操作 数 混 合 在 一 起 时 ，GCC 必须 选择 正确 的 算术 指令 、 符 号 扩展 和 零 扩 展 的 
组 合 。 这 些 指令 的 组 合 依赖 于 类 型 转换 和 对 不 同 操作 数 大 小 的 指令 的 行为 。 下 面 的 C 函数 就 说 
明了 这 一 点 : 

1 hg int gfun(int x, int y) 

2 t 

3 long int tl = (long) x + y; /* 64-bit addition */ 

4 long int t2 = (long) (x + y); /* 32-bit addition */ 

5 return ti | t2; 

6 } 


假定 整数 是 32 位 的 ， 长 整数 是 64 位 的 ， 这 个 函数 中 的 两 个 加 法 先后 进行 。 回 想 一 下 ， 强 制 
类 型 转换 的 优先 级 高 于 加 法 ， 所 以 第 3 行 要 求 x 被 转换 成 64 位 ， 由 于 操作 数 向 上 看 齐 的 原则 ， 
y 也 被 转换 成 64 位 。 然 后 用 64 位 加 法 计算 tl 的 值 。 另 一 方面 ， 第 4 行 用 32 位 加 法 计算 t2， 
然后 再 将 结果 扩展 到 64 位。 

这 个 函数 的 汇编 代码 如 下 所 示 : 


1 gfun: 
X in rdi, y in Wrsi 
2 leal (Xrsi,%rdi), Weax Compute r2 as 82-bit sum of x and 了 
clta is equivalent to movslg Yeax ra 
3 cltq Sign extend to 64 bits 
4 movslq %esi,%rsi Convert 了 to long 
5 movslq ‘wedi,hrdi Convert x to long 
6 addq wrdi, %rsi Conmpute t1 (64~bit addition) 
7 ord krsi, %rax Set ti1 f +2 as return value 
8 ret Return 


局 部 变量 t2 使 用 leal 指令 (第 2 行 ) 来 计算 ， 用 的 是 32 位 算术 运算 。 然 后 再 用 cltq 
指令 符号 扩展 到 64 位， 我 们 会 看 到 cltq 是 一 条 特殊 的 指令 ， 等 价 于 执行 指令 movslq 
Seax, srax。 第 4 一 5 行 的 movs1ld 指令 取 参 数 的 低 32 位 ， 并 且 在 同一 寄存 器 将 它们 符号 扩展 
至 64 位 。 然 后， 第 6 行 的 addq 指令 执行 64 位 加 法 ， 得 到 t1。 
| 练习 题 3.48 C 函数 arithprob 有 参数 a、b、 Cc 和 和 d， 主 体 如 下 : 


return a*b + c*d,; 





编译 得 到 如 下 x86-64 代码 : 

1 arithprob: 

2 movslq Wecx,%rcx 

3 imulq  ‘%rdx, %rcx 

4 movsbl] %sil,%esi 

5 imul1 %edi, %esi 

6 moVS1q %esi,%hrsi 

7 leaq (rcx,%rsi), hrax 
8 ret 


参数 和 返回 值 都 是 长 度 不 同 的 有 符号 整数 。 参 数 a、b、c 和 a 分 别 在 寄存 器 %rdi、%rsi、%rdx 
和 %Srcx 中 的 适当 的 区 域内 传递 。 根 据 这 个 汇编 代码 ， 写 出 一 个 函数 原型 ， 描 述 arithprob 的 返回 
值 类 型 和 参数 类 型 。 
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3-37 是 用 两 个 64 位 字 来 产生 全 128 位 乘积 的 指令 ， 类 似 于 对 应 的 32 位 指令 (图 3-9)。 
其 中 的 一 ie ee Srax 汪清 一 个 128 位 的 八字 (oct word)。 例 如 ， 
A 而 第 二 个 数 





来 目 寄存 器 $ ee 

两 个 除法 指令 idivgq 和 divq 是 以 %rdx:%rax 作为 128 位 被 除数 ， 以 源 操作 数 作为 64 位 
除数 。 然 后 将 商 存 在 寄存 器 $rax 中 ， 余 数 存 在 寄存 器 szdx 中 。 对 被 除数 的 准备 取决 于 要 执行 
的 是 无 符号 (divq) 还 是 有 符号 (idivq) 除法 。 在 无 符号 除法 中 ， 寄 存 器 $rdx 就 是 简单 地 
被 设置 为 0。 在 有 符号 除法 中 ， 用 指令 cqto 来 执行 符号 扩展 ， 将 srax 的 符号 位 拷贝 到 %$rdx 
的 每 一 位 。 日 图 3-37 还 给 出 一 条 指令 cltq， 将 寄存 器 $eax 符号 扩展 到 %rax。 日 这 条 指令 只 
是 指令 movslq seaxy srax 的 缩写 。 


R[%zrdx]:R[X%rax] < S$ x R[%rax] 有 符号 全 乘法 
R[X%zrdx]:R[%rax] <-S x R[%rax] 无 符号 全 乘法 


R[%rax] < SignExtend(R[%eax]) 将 %eax 转 换 成 四 字 


R[%rdxl:R[%rax|] < 二 SignExtend(R[%rax]) 转换 成 八字 
RI%rax] < R[Yrdx]:R[Xrax]mod 5; ”有 符号 除法 
R[%zrax] < R[%rdxl:R[%rax]+ 5 

R[{%rdx] <— R[%raxl:R[%rax] mod 5; 无 符号 除法 
R[%rax] <— R[%rdx]:R[%rax]- 5 , 


图 3-37 特殊 的 算术 运算 。 这 些 运算 支持 有 符号 和 无 符号 数 的 全 64 位 乘法 和 除法 。 
将 寄存 器 对 $srdx 和 srax 看 作 一 个 128 位 的 八字 





3.13.4 控制 

x86-64 中 实现 控制 转移 的 控制 指令 和 方法 与 IA32 (3.6 节 ) 一 样 。 如 图 3-38 所 示 ， 增 加 的 
两 条 新 指令 cmpq 和 testq， 用 来 比较 和 测试 四 字 ， 是 对 字 节 、 字 和 双 字 大 小 的 指令 〈 图 3-10) 
的 扩充 。GCC 既 使 用 条 件数 据 传送 ， 也 使 用 条 件 控制 转移 ， 因 为 所 有 的 x86-64 机 器 都 支持 条 件 
传送 。 





测试 四 字 


图 3-38 64 位 的 比较 和 测试 指令 。 这 些 指 令 设置 条 件 代码 但 是 不 改变 其 他 寄存 器 


为 了 说 明 IA32 和 x86-64 代码 的 相似 性 ， 考 虑 用 while 循环 实现 的 整数 阶乘 函数 〈 图 
3-15) 编译 后 产生 的 汇编 代码 ， 如 图 3-39 所 示 。 正 如 能 够 看 到 的 那样 ， 这 两 个 版 本 非常 相 
似 。 区 别 之 处 在 于 如 何 传递 参数 (分别 是 在 栈 上 和 寄存 器 中 )， 并 且 x86-64 代码 中 没有 栈 
帧 和 帧 指针 。 


© AIT 格式 指令 cqto 在 Intel 和 AMD 文档 中 被 称 为 cqo。 
日 指令 cltq 在 Intel 和 AMD 文档 中 被 称 为 cdqe。 


- 则 :了 和 偶 : 焉 谓 朱 机 可 级 表示 


fact_while: 
n ar hebp+8 
pushl Whebp Save frame pointer 
movl hesp, wkebp Create new frame painter 
movl 8(hebp), hedx Gern 
movl $1, Weax Set result = 1 
cmpl $1, %edx Compare ri:1 
jle Ky Bg if «<=, goto done | 
.L10: To0ps 
imull ‘hedx, heax Compute res ult 交 二 n 
subl $1, Wedx : pécrement n” . | 
cmpl $1, wedx Compare n:1 
jg .L10 If >, goto loop 2 
a done : 四 
popl hebp : Restore frame pointer 
ret Return resuilt | 


a) IA32 版 本 





fact_while: 


nin Wrdi 


movl $1, Weax Set result = 1 

cmpl $1, hedi Compare n:1 

jle .L7 If <=, goto done 
.L10: loop: | 


imull Wedi, heax Compute raesult *= nn. 
subl $1, %edi Decrement mn 
cmpl $1, hedi Compare n:1 | 
jg .L10 Tf >, goto loop | . 
of: done: - 


rep (See explanation in aside) 
ret ne Return result 





b) x86-64 版 本 ee 


图 3-39 IA32 和 x86-64 版 本 的 阶乘 函数 。 两 者 都 是 图 3-15 中 的 C 代码 编译 而 来 的 


为 什么 代码 中 有 一 条 rep 指令 oi a 
” 栽 们 看 到 x86-64 代码 的 第 11 人 在 返回 指令 es t 之 衣 有 撞 信 ~ rep。 看 了 Intel. 和 AMD 关 
于 rep 指令 的 文档 ， 我 们 得 知 通常 用 它 来 实现 重复 字符 串 操 作 [3， 29]。 这 里 出 现 这 条 指令 看 上 


完全 不 合 时 宜 。 对 于 这 个 疑虑 的 解答 可 以 在 AMD: 给 编译 器 作者 的 指导 书 上 1]: 里 找到 
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。 他们 建 . 


议 使 用 rep 后面 跟 ret 的 组 合 ， 可 以 避免 使 ret 指令 作为 条 件 跳 转 指令 的 目的 地 。 如 果 没 有 


rep 指令 ， 那 么 当 不 跳 转 到 分 支 的 时 候 ， 条 件 跳 转 jg 指令 的 目的 就 是 ret 指令 
说 法 ， 当 从 一 条 跳 转 指令 跳 到 ret 指令 时 ， 处 理 器 不 能 适当 地 预测 ret 指 仿 的 目的 。 由 于 这 条 


。 根 据 AMD 的 


rep 指令 作为 空 操 作 使 用 ; 所 以 插入 至 此 作为 跳 转 的 目的 ,除了 使 代码 在 AMD :处 理 器 上 运行 得 
更 快 之 外 ， 不 会 改变 代码 的 其 他 行为 。 





a 练习 题 3.49 - c 函数 fun -有 加 下 总体 结构 i i RS 


long fun _clunsigneg. long Xx) 本 Ee 
long val = 0; 2 ee 
int i; | ! | 
eh 2 ; ER 


} 


CN" 
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多 
TetUITD 


} 
GCC C 编译 器 产生 如 下 汇编 代码 : 
1 fun_c: 
x in Wrai 
2 movl $0, hecx 
3 movl $0, %edx 
movabsq $72340172838076673，%rsi 
5 .12: 
6 movqg Wrdi, Whrax 
7 andq %rsi, %rax 
8 addq MTaX ， ATCX 
9 shrq hrdi Shift right by 1 
10 addl $1, pedx 
11 cmpl $8, Wedx 
12 jne .L2 
13 movd Wrcx, %rax 
14 sarq $32,%rax 
15 addg krcx, %rax 
16 movg wrax, hrdx 
17 sarg $16, %radx 
18 addq %rax, %rdx 
19 movqg wrdx, hrax 
20 sarg $8, %rax 
21 addq hrdx, hrax 
22 andl $255, %eax 
23 ret 


对 这 段 代 码 做 逆向 工程 ， 你 会 发 现 这 对 第 4 行 的 十 进 制 常数 转换 为 十 六 进 制 会 有 所 帮助 。 
A. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 
B. 用 自然 语言 描述 这 段 代码 计算 的 是 什么 。 
1. 过 程 
我 们 在 代码 示例 中 已 经 看 到 ， 过 程 调用 的 x86-64 实现 与 其 IA32 实现 有 很 大 的 不 同 。 通 过 将 
寄存 器 组 翻 倍 ， 程 序 不 再 需要 依赖 于 栈 来 存储 和 获取 过 程 信息 。 这 极 大 地 减少 了 过 程 调用 和 返回 
的 开销 。 
, 这 里 列举 x86-64 中 如 何 实现 过 程 的 一 些 重点 : 
。 人 参数 〈 最 多 是 前 六 个 ) 通过 寄存 器 传递 到 过 程 ， 而 不 是 在 栈 上 。 这 消除 了 在 栈 上 存储 和 检 
索 值 的 开销 。 
。callq 指令 将 一 个 64 位 返回 地 址 存储 在 栈 上 。 
。 许 多 函数 不 需要 栈 帧 。 只 有 那些 不 能 将 所 有 的 局 部 变量 都 放 在 寄存 器 中 的 函数 才 需要 在 栈 
上 分 配 罕 间 。 
。 函数 最 多 可 以 访问 超过 当前 栈 指 针 值 128 个 字 节 的 栈 上 存储 空间 〈 地 址 低 于 当前 栈 指针 的 
值 )。 这 允许 一 些 函数 将 信息 存储 在 栈 上 而 无 需 修改 栈 指 针 。 
。 没 有 帧 指针 。 作 为 蔡 代 ， 对 栈 位 置 的 引用 相对 于 栈 指针 。 头 多数 函 数 在 调用 开始 时 分 配 所 
需要 的 整个 栈 存储 ， 并 保持 栈 指针 指向 固定 位 置 。 
。 同 IA32 一 样 ， 有 些 寄存 器 被 指定 为 被 调用 者 保存 寄存 器 。 任 何 要 修改 这 些 寄存 器 的 过 程 
都 必须 保存 并 恢复 它们 。 
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2. 参数 传递 : 

最 多 可 以 有 6 个 整 型 (整数 和 指针 ) 参数 可 以 通过 寄存 器 进行 传递 。 寄 存 器 按照 指定 的 顺序 
来 使 用 ， 使 用 的 寄存 器 名 对 应 于 所 传递 的 数据 的 大 小 。 图 3-40 给 出 了 这 些 寄存 器 。 参 数 按照 它 
们 在 参数 列表 中 的 顺序 依次 分 配 到 这 些 寄存 器 中 。 小 于 64 位 的 参数 可 以 用 64 位 寄存 器 相应 的 部 
分 来 访问 。 例如， 如 果 第 一 个 参数 是 32 位 的 ， 就 可 以 用 $edi 来 访问 它 。 


操作 数 大 小 
(位) 





图 3-40 传递 函数 参数 的 寄存 器 。 根 据 参数 的 大 小 按照 一 定 的 顺序 来 使 用 这 些 寄存 器 
作为 一 个 参数 传递 的 示例 ， 考 虑 下 面 这 个 有 8 个 参数 的 C 函数 : 


void proc(long al, long *alip, 
int a2, int *a2p,， 
short a3, short *a3p, 
char a4, char *a4p) 


*alp += al; 
*a2p += 32; 
*a3p += a3; 
*a4p += a4; 


\ 
这 些 参数 包括 许多 大 小 不 同 的 整数 (64、32、16 和 8 位 )， 以 及 不 同类 型 的 64 位 的 指针 。 


x86-64 中 这 个 函数 的 实现 如 下 : 


XBG-64 implementation of function proc 


Arguments passed as follows;: 


al in Yrdi (64 bits) 
alp in ¥rsi (64 bits) 
a2 in Yedx (32 bits,) 
a2p in Krex (64 bits) 
a3 in HrOw (16 bits) 
a3p in Yr9 (64 bits) 
a4 at prSp+8 (8 bits) 
adp at prSD+TIG (64 bits) 
1 proc: 
2 movg 16(%rsp), %r1i0 Fetch a4p (64 bits) 
EE ”addq %rdi, (%rsi) valp += al (64 bits) 
4 addl Wedx, (hrcx) *a2p += a2 (32 bits) 
5 addV hr8w, (%r9) .  *#a3p += a3 (16 bits) 
6 movzbl 8(%rsp), heax Fetch a4 (8 bits) 
7 addb %al, (%r10) ¥adp += ad (8 bits) 
8 ret 


前 6 个 参数 用 寄存 器 传递 ， 而 后 两 个 在 相对 于 栈 指针 偏 移 量 为 8 和 16 的 地 方 。 根 据 操作 数 的 大 
小 使 用 不 同 版 本 的 ADD 指令 ;对 al 用 addq (long), 对 a2 用 addl (int)， 对 a3 用 addw 
(short)， 而 对 a4 用 addb (char)。 

练习 题 3.50 C 函数 incrprob 有 不 同 大 小 的 参数 q、 七 和 x， 每 个 都 可 能 是 有 符号 的 ， 也 可 能 是 无 
符号 的 。 该 函数 有 如 下 主体 : 






本 RE 
WY 
oe 


ed 
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*t += X; 

*q 十 = 水 七 
”编译 得 到 下 面 的 x86-64 代码 : 

1 incrprob: 

2 addl  (%rdx), %edi 

3 moVI %edi, (%rdx) 

4 movslq pedi ,prdi 

5 addq hrdi，《〈%rSsIi) 

6 ret 


通过 确定 3 个 参数 的 顺序 和 可 能 的 类 型 ， 确 定 incrprob 的 全 部 4 种 合理 的 函数 原型 。 

3. 栈 帧 

我 们 已 经 看 到 许多 编译 后 的 函数 并 不 需要 栈 帧 。 如 果 所 有 的 局 部 变量 都 能 保存 在 寄存 器 
中 ， 而 且 这 个 函数 也 不 会 调用 其 他 函数 (参考 过 程 调用 的 树 结构 ， 有 时 称 之 为 叶子 过 程 〈leaf 
procedure))， 那 么 需要 栈 的 唯一 原因 就 是 用 来 保存 返回 地 址 。 

男 一 方面 ， 使 得 函数 可 能 需要 栈 帧 的 原因 如 下 : 

* 局 部 变量 太 多 ， 不 能 都 放 在 寄存 器 中 。 

。 有 些 局 部 变量 是 数组 或 者 结构 。 

。 函数 用 取 地 址 操作 符 〈&) 来 计算 一 个 局 部 变量 的 地 址 。 

。 因数 必须 将 栈 上 的 某 些 参数 传递 到 另 一 个 末 数 。 

。 在 修改 一 个 被 调用 者 保存 寄存 器 之 前 ， 函 数 需 要 保存 它 的 状态 。 

当 上 述 条 件 中 有 任何 一 条 满足 时 ， 我 们 发 现 函 数 编译 出 来 的 代码 就 会 创建 栈 帧 。 与 IA32 的 
代码 不 同 ， 那 里 栈 指针 会 随 着 值 的 压 人 和 弹出 不 断 前 后 移动 ， 但 是 x86-64 过 程 的 栈 帧 通常 有 固 
定 的 大 小 ， 在 过 程 开始 时 通过 减 小 栈 指针 〈 寄 存 器 srsp) 来 设置 。 在 调用 过 程 中 ， 栈 指针 保持 
在 固定 的 位 置 ， 使 得 可 以 用 相对 于 栈 指 针 的 偏 移 量 来 访问 数据 。 因 此 ， 就 不 再 需要 IA32 代码 中 
可 见 的 帧 指针 (寄存 器 $ebp) 了 。 

每 当 一 个 函数 〈 调 用 者 ) 要 调用 另 一 个 函数 〈 被 调用 者 ) 时 ， 返 回 地 址 会 被 压 和 人 栈 中 。 通 
常 ， 我 们 认为 这 是 调用 者 栈 帧 的 一 部 分 ， 它 编码 的 是 某 种 调用 者 的 状态 。 但 是 ， 当 控制 返回 到 调 
用 者 时 ， 会 把 这 个 信息 从 栈 中 弹出 来 ， 所 以 它 不 会 影响 调用 者 访问 栈 帧 中 值 所 使 用 的 偏 移 量 。 

下 面 的 函数 说 明了 x86-64 栈 规则 的 许多 方面 。 尽 管 这 个 例子 有 点 儿 长 ， 但 还 是 很 值得 仔细 
研究 。 


long int call_proc() 


long x1 = 1; int x2 = 2; 

Short x3 = 3; char x4 = 4; 

proc(x1, &xi, x2, &x2, XxX3, &x3, X4, &x4); 
return (x1l+x2)*(x3-x4); 


} 
GCC 产生 下 面 的 x86-64 代码 : 


X86-64 inmpliementation of cali_prac 
1 call_proc: = 


i subgq $32, hrsp Allocate 32-byte Stack fraime 
; movg $1, 16(%rsp) Store 1 in &x! 
4 movl $2,，24(hrsp) Store 2 in &x2 
5 moOVvW $3, 28(%rsp) Store 3 in &x3 


6 movb $4, 31(%rsp) Store 4 in &x4 
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7 leaq 24(%rsp), hrcx Pass &x2 as argument 4 

8 leaq 16(%hrsp), %rsi Pass bx as argument 2 
9 leaq 31(%rsp), hrax Compute &x4 z 

10 moVd hrax, 8(%rsp) Pass &x4 as argment 8 

11 movl $4 ， (%rsp) Pass .4 as argument 7 
12 leaqg 28(hrsp) , %r9 Pass &x3 as argumenb 6 

13 movl $3, %r8d Pass 3 as argument 5 

14 ‘movl $2, %edx Pass 2 as argument 3 

15 movl $1, %edi Pass 1 as argument 1 

16 call proc Call 

17 moVvswl 28(%rsp) ,%eax Get x3 and convert to int 
18 movsbl 31(%rsp) ,%edx Get x4 and convert to int 
19 subl hedx, heax Compute x3-x4 

20 cltq D1 gn axtend to iong int 
21 movslq 24(hrsp),%rdx Get x2 

22 addq 16(%rsp), hrdx Compute x1+tx2 

23 imulq ‘%rdx, hrax Compute (x1+x2)*(x3~x4) 
24 addq $32，%rsp Deallocate stack frame 
25 ret Return 


图 3-41a 说 明了 在 执行 call_proc 时 ， 栈 帧 的 建立 。 函 数 call_proc 减 小 栈 指针 ， 在 栈 上 
分 配 了 32 个 字 节 。 它 用 字 节 16 一 31 来 保存 局 部 变量 x1( 字 节 16 一 23),x2( 字 节 24 一 27),x3( 字 
节 28 一 29) 和 x4 〈 字 节 31)。 这 样 的 分 配 大 小 是 由 变量 的 类 型 决定 的 。 字 节 30 未 使 用 。 由 于 没 
有 足够 的 参数 寄存 器 ， 栈 帧 的 字 节 0 一 7 和 8 一 15 用 来 保存 call_proc 的 第 7 个 和 第 8 个 参数 。 
虽然 参数 x4 只 需要 一 个 字 节 ， 但 还 是 为 每 个 参数 分 配 了 8 个 字 节 。 在 call_proc 的 代码 中 我 们 
可 以 看 到 ， 为 调用 ca11_proc 所 进行 的 初始 化 局 部 变量 和 建立 参数 〈 既 有 在 寄存 器 中 的 ， 也 有 在 
栈 上 的 ) 的 指令 。 在 proc 返回 后 ， 局 部 变量 结合 起 来 计算 最 后 的 表达 式 ， 结 果 在 寄存 器 $rax 中 
返回 。 在 ret 指令 之 前 ， 通 过 简单 地 增加 栈 指 针 ， 就 释放 了 栈 空间 。 

图 3-4lb 说 明 proc 执行 时 的 栈 。cal1 指令 将 返回 值 压 人 栈 中 ， 所 以 在 执行 call Proc 
时 ， 栈 指针 相对 于 它 的 位 置 向 下 移动 8。 因 此， 在 proc 的 代码 中 ， 用 距离 栈 指 针 偏 移 量 为 8 和 
16 来 访问 参数 7 和 8。 


栈 指针 .3 


hrsp ———> 0 


a) 调用 proc 之 前 





b) 调用 proc 过 程 中 
3-41 call_proc 的 栈 帧 结构 。 帧 要 保存 局 部 变量 xl 到 x4， 以 及 proc 的 第 7 个 和 
第 8 个 参数 。 在 proc 的 执行 过 程 中 ， 栈 指针 向 下 移动 8 . 


可 以 观察 到 call_proc 如 何在 执行 过 程 中 只 改变 了 一 次 栈 指针 。GCC 认为 用 32 字 节 来 保 
存 所 有 的 局 部 变量 和 proc 的 多 出 来 的 参数 就 足够 了 。 尽 量 减少 栈 指针 的 移动 次 数 ， 简 化 了 编译 
器 用 相对 于 栈 指针 的 偏 移 量 产生 对 栈 元 素 的 引用 的 任务 。 -a - 

4. 寄存 器 保存 惯例 

我 们 看 到 在 IA32 中 (3.7.3 节 ) 有 些 用 来 保存 临时 值 的 寄存 器 被 指定 为 调用 者 保存 ， 函 数 可 以 
自由 地 禾 盖 这 些 寄存 器 的 值 ; 而 另外 一 些 是 被 调用 者 保存 ， 聘 数 在 写 这 些 寄存 器 之 前 ， 必 须 在 栈 
上 保存 它们 的 值 。 在 x86-64 中 ， 指 定 为 被 调用 者 保存 的 寄存 器 有 : $rbx、%rbp 和 %r12 ~ %r1l5。 
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有 调用 者 保存 的 临时 寄存 器 吗 

在 16 个 通用 目的 寄存 器 中 ， 我 们 看 到 有 6 个 是 用 来 传递 参数 ，6 个 是 由 被 调用 者 保存 的 
临时 等 看 器，1 个 (%rax) 保存 函数 的 返回 值 ， 还 有 1 个 〈srspP) 作为 栈 指针 ， 只 剩 下 8$zrl10 
和 sr11 是 作为 调用 者 保存 的 临时 寄存 器 。 当 然 ， 当 参数 少 于 6 个 或 者 当 函 数 用 完了 参数 时 ， 就 
可 以 使 用 参数 寄存 器 了 ， 而 在 产生 出 最 终 的 结果 之 前 ，%$rax 可 以 重复 利用 。 


我 们 用 一 个 递归 阶乘 函数 的 某 些 不 寻常 的 版 本 为 例 ， 说 明 被 调用 者 保存 寄存 器 的 使 用 : 


/* Compute x! and store at resultp */ 
void sfact_helper(long int x, long int *resultp) 


{ 
if (x <= 1) 
*resultp = 1; 
else { 
long int nresult, 
sfact_helper (x-1, &nresult); 
*resultp = x * nresult; 
} 
} 


要 计算 值 x 的 阶乘 ， 这 个 函数 的 最 顶层 调用 如 下 : 


Jong int sfact(long int x) 


{ 
long int result; 
sfact_helper(x, &result); 
return result; 

} 


sfact helper 的 x86-64 代码 如 下 所 示 。 


Arguments: x in grai, resultp in yrsi 
sfact_helper: | 


| 

2 moVq %rbx, -16(%rsp) Save Yrbx (callee save) 

3 movgd rbp, ~8(%rsp) Save Krbp (callee save) 

4 subq $40,%rsp Allocate 40 pytes on stack 

5 movVd %rdi, %rbx Copy x to Wrbx 

6 movg %rsi, %rbp Copy resultp to %rbp 

7 cmpq $1, %rdi Compare xX:1 

8 jg .L1i4 Tf >, goto recur 

9 moVdq $1，(%rsi) Store 1 in *resultp 
10 jmp .L116 Goto done 
11 .L14: recur:; 
12 leaq 16(4rsp), hrsi Compute &nresult as second argument 
13 leaq -1(%rdi), %rdi Compute Xi = x-1 as first arguiment 
14 call sfact_helper Call sfact_helper(xm!, &nresult) 
15 movg hrbx, hrax Copy ¥ 
16 imulq 16(hrsp), hrax Compute x*nresult 
17 movdq hrax, (%rbp) Store at resultp 
18 Ll done: 

19 movqg 24(%rsp), %rbx ~ Restore %rbx 
20 movqg 32(%rsp) , %rbp Restore %rbp 
21 addq $40 ，ApTSP Deallocate stack 
22 ret Return 


图 3.42 说 明了 sfact_helper 是 如 何 用 栈 来 存储 被 调用 者 保存 寄存 器 的 值 ， 以 及 保存 局 部 变 
量 nresult。 这 个 实现 有 二 个 有 趣 的 特性 ， 它 调用 的 两 个 被 调用 者 保存 寄存 器 (srbx 和 srbp) 被 
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保存 在 栈 上 (第 2 ~ 3 行 )， 之 后 栈 指针 减少 (第 4 行 ) 以 分 配 栈 帧 。 因 此 ，%rbx 的 栈 编译 量 从 开 
始 时 的 一 16 移 到 了 最 后 的 +24 (第 19 行 )。 类 似 地 ，S%rbp 的 偏 移 量 从 一 8 移 到 了 +32。 


栈 指针 


%$rsp > 0 


-8| 存储 sbp 
-16| trpx 


a ) 栈 指针 减少 之 前 


栈 指针 
Srsp 





: b ) 栈 指针 减少 之 后 
图 3-42 函数 sfact _helper 的 栈 帧 。 该 函数 在 保存 某 些 状态 之 后 ， 将 栈 指 针 减 小 
x86-64 的 一 个 不 同 寻常 的 特性 是 能 够 访问 栈 指针 之 外 的 存储 器 。 它 要 求 虚拟 存储 器 管理 系 
统 为 这 段 区 域 分 配 存 储 器 。x86-64 ABI [73] 指明 程序 可 以 使 用 当前 栈 指针 之 外 128 字 节 的 范围 
( 即 低 于 当前 栈 指针 的 值 )。 ABI 将 这 个 区 域 称 为 红色 地 带 (red zone)。 必 须 保 持 当 栈 指针 移动 时 ， 
红色 地 带 可 读 可 写 。 
练习 题 3.51 对 于 C 程序 


long int local_array(int i) 





{ 
long int a[4] = {2L, 3L, 5L, 7L}; 
int idx = i & 3; 
return al[idx]; 

} 

GCC 产生 如 下 代码 : 


XS6-64 implementation of local_array 
Argument: i in edi 

1 local_array: 

2 movdq $2, -40(%rsp) 

3 movq $3 ，-32(XrsPp) 

4 movg $5, ~24(%rsp) 

5 movdq $7, -16(%rsp) 

6 andl $3, wedi 

7 movVq -40(%rsp,%rdi ,8) , %rax 
8 ret 


A. 画图 说 明 这 个 函数 使 用 的 栈 位 置 ， 以 及 它们 相对 于 栈 指针 的 偏 移 量 。 
B. 为 汇编 代码 添加 注释 ， 描 述 每 条 指令 的 效果 。 

C. 这 个 示例 说 明 关于 x86-64 栈 规则 的 什么 有 趣 特 性 ? 

区 弹 练 习题 3.52 对 于 递归 阶乘 函数 


long int rfact(long int x) 
{ 





if (x <= 0) 
return 1; 

else { 
long int Xml = x-1; 
return x * rfact(xm1); 


} 
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“GCC 产生 下 面 的 代码 ; : . 
X86-64 implemontation:of recursiye. tactorial function rfact 


Argument x in Yrdi 


1 rfact: 

2 pushq  %rbx i 
3 movd wrdi, hrbx 

4 movl $1, %eax 

5 testq %rdi, hrdi 

6 jle .L11 

7 leaq -1(%rdi), %rdi 
8 ~ call rfact | 
9 imulq  %rbx, %hrax 

10 .Lil: 
11 Popq hrbx 

12 ret 


A. 函数 存储 在 szbx 中 的 是 什么 值 ? 
B. pushq (第 2 行 ) 和 popq 《第 11 行 ) 指令 是 干什么 用 的 ? 
C. 为 汇编 代码 添加 注释 ， 描述 每 条 指令 的 效果 。 ~ 
.DP. Ge MOR a ee 
3: 13.5 数据 结构 “”，”，…: 
“X86-64 中 数据 结构 遵循 的 原则 与 | TA32 2 的 一 样 : 站 组 是 作为 同样 大 小 的 块 的 序列 来 分 配 ， 这 
些 块 中 保存 着 数组 元 素 ; 结构 则 作为 变 长 的 块 来 分 配 ， 人 人 全 和 二 信人 四 全 A 
独 的 块 来 分 配 ， 这 个 块 足够 大 ， 能 够 装 下 联合 中 最 大 的 元 素 。 
区 别 是 x86-64 遵循 一 组 更 严格 的 对 齐 要 求 。 对 于 任何 需要 天 字 忆 的 标量 数据 关 型 来 说 它 
的 起 始 地 址 必须 是 天 的 倍数 。 因 此 ， 数 据 类 型 1ong 和 double 以 及 指针 ， 都 必须 在 8 字 节 边 
界 上 对 齐 。 此 外 ， 数 据 类 型 1ong double 使 用 16 字 节 对 齐 〈 分 配 也 是 16 个 字 节 大 小 )， 虽 然 
实际 表示 只 需要 10 个 字 节 。 强 加 上 这 些 对 齐 条 件 是 为 了 提高 存储 器 系统 性 能 一 一 最 新 的 处 理 器 
Ri 存储 器 接口 被 设计 成 读 或 者 写 对 齐 的 块 ， 这 些 块 是 8 或 者 16 字 节 长 。 z 
SS 练习 题 3.53 ”对 于 下 列 结构 声明 ， 确 定 每 个 字段 的 偏 移 量 ， 结 构 的 整个 大 小 ， 以 及 在 x86-64 下 它 的 
对 齐 要 求 。 





A. struct P1 { int i; char c; long j; char dj; }; 

B. struct P2 {long i; char c; char d; int j;}; 

C. struct P3 { short w[3]; char c[3] }; 

D. struct P4 { short w[3]; char *c [3] }; 

E. struct P3 { struct P1 a{[2]; struct P2 *p }; 
3.13.6 ”关于 x86-64 的 总 结 性 评论 

将 x86 处 理 器 带 人 新 纪元 的 功臣 是 AMD 和 :GCC 的 作者 。x86-64 硬件 和 编程 规则 的 形 
成 改变 了 处 理 器 ， 过 去 它 严重 依赖 于 栈 来 保存 程序 状态 ， 现在 则 是 将 最 常 使 用 的 状态 部 分 保 
存在 更 快 并 扩展 了 的 寄存 器 组 中 。x86 终于 赶 上 了 20 世纪 80 年 代 早 期 RISC 处 理 器 提出 的 
理念 ! 四 | 
既 能 运行 IA32 代码 又 能 运行 x86-64 代码 的 处 理 器 变 得 越 来 越 常见 。 现 在 许多 桌面 电脑 和 笔 
记 本 系统 都 还 是 运行 的 它们 操作 系统 的 32 位 版 本 ， 这 也 限制 了 这 些 机 器 只 能 运行 32 位 应 用 。 运 
行 64 位 操作 系统 的 机 器 ， 由 于 其 能 够 运行 32 位 和 64 位 应 用 ， 已 经 成 为 高 端 机 器 的 普遍 选择 ， 
例如 ， 数 据 库 服务 器 和 科学 计算 。 将 应 用 从 32 位 转换 成 64 位 最 大 的 缺陷 是 指针 变量 的 大 小 翻 倍 
了 ， 由 于 许多 数据 结构 都 包含 指针 ， 这 也 意味 着 总 的 存储 器 需求 也 几乎 翻 倍 了 。 只 有 对 内 存 需求 
超过 IA32 的 4GB 地 址 空间 限制 的 应 用 才 执 行 这 种 32 位 到 64 位 的 转换 。 历史 表明 应 用 总 是 能 变 
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得 充分 使 用 所 有 可 得 的 处 理 能 力 和 存储 器 大 小 ， 因 此 我 们 可 以 很 放心 地 预测 ， 运 行 64 位 操作 系 
统 和 应 用 的 64 位 处 理 器 会 逐渐 变 得 更 普遍 。 


3.14 浮 点 程序 的 机 器 级 表示 


到 目前 为 止 ， 我 们 只 考虑 了 表示 整数 以 及 对 整数 数据 类 型 进行 操作 的 程序 。 为 了 实现 使 用 浮 
点 数据 的 程序 ， 我 们 必须 用 一 些 方法 来 存储 浮 点 数据 ， 同 时 还 要 有 额外 的 指令 对 浮 点 值 进行 操 
作 、 在 浮 点 和 整数 值 之 间 进 行 转换 ， 以 及 在 浮 点 数 之 间 进 行 比较 。 还 需要 规则 定义 如 何 传递 作为 
函数 参数 的 浮 点 值 ， 以 及 如 何 传递 作为 函数 结果 的 浮 点 值 。 我 们 把 存储 模型 、 指 令 和 传递 规则 的 
组 合 称 为 机 器 的 浮上 点 体系 结构 。 : z 

由 于 x86 处 理 器 有 很 长 的 发 展演 变 历 史 ， 它 提供 了 多 种 浮 点 体系 结构 ， 目 前 有 两 种 还 在 使 
用 。 第 一 种 ， 称 为 “x87”， 可 以 追溯 到 早期 的 Intel 微 处 理 器 ， 直 到 现在 都 还 是 标准 的 实现 。 第 
二 种 ， 称 为 “SSE”， 是 基于 较 新 的 对 x86 处 理 器 增加 多 媒体 应 用 的 支持 。 


网 络 旁 注 ASM:X87 x87 的 浮 点 体系 结构 

历史 上 的 X87 浮 点 体系 结构 是 X87 体系 结构 中 最 不 优雅 的 特性 之 一 。 在 原来 的 Intel 机 器 中 ， 
浮 点 计算 是 由 一 个 独立 的 协 处 理 器 完成 的 。 协 处 理 器 是 一 个 具有 自己 的 寄存 器 和 执行 一 组 指令 的 
处 理 能 力 的 单元 。 这 个 协 处 理 器 用 一 个 独立 的 芯片 实现 ， 称 为 8087、80287 和 1387， 分 别 同 处 
理 器 芯片 8086、80286 和 1386 配套 ， 因 而 俗称 “X87” 所 有 的 X86 处 理 器 都 支持 X87 体系 结构 ， 
因此 编译 浮 点 代码 的 时 候 一 直 可 以 用 它 作 为 可 能 的 目标 。 

X87 指令 在 一 个 很 浅 的 浮 点 寄存 器 栈 上 运行 。 在 栈 模型 中 ， 有 些 指 令 从 存储 器 读 出 值 ， 再 压 
入 栈 中 ; 另 一 些 指令 从 栈 中 弹出 操作 数 ， 执 行 一 个 操作 ， 然 后 把 结果 压 入 栈 中 ; 还 有 一 些 从 栈 中 
弹出 值 ， 再 把 它们 存 到 存储 器 中 。 这 种 方法 的 好 处 就 是 有 很 简单 的 算法 能 使 编译 器 将 算术 表达 式 
求 值 映 射 到 栈 代 码 中 。 

现代 编译 器 能 够 做 很 多 并 不 起 用 于 栈 模型 的 优化 ， 例 如 ， 多 次 使 用 一 个 计算 出 来 的 结果 。 结 
果 ，x87 体系 结构 实现 了 一 个 很 奇特 的 栈 模型 和 寄存 器 模型 的 混合 ， 这 里 栈 的 不 同 元 素 可 以 显 式 
地 读 和 写 ， 同 时 也 可 以 通过 压 入 和 弹出 来 向 上 或 者 向 下 移动 。 此 外 ，X87 的 栈 被 限制 为 深度 不 能 
超过 8 个 值 ; 当 压 入 多 于 8 个 值 时 ， 很 简单 地 ， 栈 底 的 元 素 会 被 去 弃 。 因 此 ， 编 译 器 必须 记录 栈 
的 深度 。 此 外 ， 编 译 器 必须 将 所 有 的 浮 点 寄存 器 都 当 作 调用 者 保存 ， 因 为 如 果 其 他 的 过 程 向 栈 中 
压 入 更 多 的 值 时 ， 它 们 的 值 可 能 会 从 栈 底 消失 。 


网 络 旁 注 ASM:SSE SSE 浮 点 体系 结构 

SSE2 指令 集 ， 从 Pentium 4 开始 ， 增 加 了 对 多 媒体 应 用 的 支持 ， 成 为 编译 C 代码 的 一 种 可 行 的 
浮上 点 体系 结构 。 与 X87 的 基于 栈 的 体系 结构 不 同 ， 基 于 SSE 的 浮 点 使 用 了 很 直接 的 基于 寄存 器 的 方 
法 ， 对 于 优化 编译 器 来 说 ， 是 一 个 更 好 的 目标 。 使 用 SSE2， 除 了 和 它 使 用 的 是 一 组 不 同 的 寄存 器 和 指 
令 之 外 ， 浮 点 代码 类 似 于 整数 代码 。 当 为 x86-64 进行 编译 时 ，GCC 产生 SSE 代码 。 另 一 方面 ， 对 于 
IA32， 它 默认 产生 X87 代码， 但 是 也 可 以 通过 适当 的 命令 行 参数 设置 ， 指 示 它 产生 SSE 代码 。 


3.15 小结 


在 本 章 中 ， 我 们 宽 视 了 C 语言 提供 的 抽象 层 下 面 的 东西 ， 以 了 解 机 器 级 编程 。 通 过 让 编译 器 
产生 机 器 级 程序 的 汇编 代码 表示 ， 我 们 了 解 了 编译 器 和 它 的 优化 能 力 ， 以 及 机 器 、 数 据 类 型 和 指 
令 集 。 在 第 5 章 ， 我 们 会 看 到 ， 当 编写 能 有 效 映射 到 机 器 上 的 程序 时 ， 了 解 编译 器 的 特性 会 有 所 
帮助 。 我 们 还 更 完整 地 了 解 了 程序 如 何 将 数据 存储 在 不 同 的 存储 器 区 域 中 。 在 第 12 章 会 看 到 许多 
这 样 的 例子 ， 我 们 需要 知道 一 个 程序 变量 是 在 运行 时 栈 中 ， 是 在 某 个 动态 分 配 的 数据 结构 中 ， 还 
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是 在 某 个 全 局 存储 位 置 中 。 理 解 程序 如 何 映射 到 机 器 上 ， 会 让 理解 这 些 存 储 之 间 的 区 别 容易 一 些 。 

机 器 级 程序 和 它们 的 汇编 代码 表示 ， 与 C 程序 的 差别 很 大 。 在 汇编 语言 程序 中 ， 各 种 数据 
类 型 之 间 的 差别 很 小 。 程 序 是 以 指令 序列 来 表示 的 ， 每 条 指令 都 完成 一 个 单独 的 操作 。 部 分 程序 
状态 ， 如 寄存 器 和 运行 时 栈 ， 对 程序 员 来 说 是 直接 可 见 的 。 本 书 仅 提供 了 低级 操作 来 支持 数据 处 
理 和 程序 控制 。 编 译 器 必须 用 多 条 指令 来 产生 和 操作 各 种 数据 结构 ， 来 实现 像 条 件 、 循 环 和 过 程 
这 样 的 控制 结构 。 我 们 讲述 了 C 语言 和 如 何 编译 它 的 许多 不 同方 面 。 我 们 看 到 C 语言 中 缺乏 边 
界 检查 ， 使 得 许多 程序 容易 出 现 缓冲 区 溢出 。 虽 然 最 近 的 运行 时 系统 提供 了 安全 保护 ， 而 且 编 译 
器 帮助 使 得 程序 更 安全 ， 但 是 这 已 经 使 许多 系统 容易 受到 人 侵 者 的 恶意 攻击 。 

我 们 只 分 析 了 C 到 IA32 和 x86-64 的 映射 ， 但 是 大 多 数 内 容 对 其 他 语言 和 机 器 组 合 来 说 也 
是 类 似 的 。 例 如 ， 编 译 C++ 与 编译 C 就 非常 相似 。 实 际 上 ，C++ 的 早期 实现 就 只 是 简单 地 执行 
了 从 C++ 到 C 的 源 到 源 的 转换 ， 并 对 结果 运行 C 编译 器 ， 产 生 目 标 代码 。C++ 的 对 象 用 结构 来 
表示 ， 类 似 于 C 的 struct。C++ 的 方法 是 用 指向 实现 方法 的 代码 的 指针 来 表示 的 。 相 比 而 言 ， 
Java 的 实现 方式 完全 不 同 。Java 的 目标 代码 是 一 种 特殊 的 二 进 制 表示 ， 称 为 Java 字 节 代码 。 这 
种 代码 可 以 看 成 是 虚拟 机 的 机 器 级 程序 。 正 如 它 的 名 字 上 暗示 的 那样 ， 这 种 机 器 并 不 是 直接 用 硬 
件 实现 的 ， 而 是 用 软件 解释 器 处 理 字 节 代码 ， 模 拟 虚 拟 机 的 行为 。 另 外 ， 有 一 种 称 为 及 时 编译 
(just-in-time compilation) 的 方法 ， 动 态 地 将 字 节 代码 序列 翻译 成 机 器 指令 。 当 代码 要 执行 多 次 
时 例如 在 循环 中 )， 这 种 方法 执行 起 来 更 快 。 用 字 节 代码 作为 程序 的 低级 表示 ， 优 点 是 相同 的 
代码 可 以 在 许多 不 同 的 机 器 上 执行 ， 而 本 章 谈 到 的 机 器 代码 只 能 在 x86 机 器 上 运行 。 


参考 文献 说 明 


Itel 和 AMD 提供 了 关于 他 们 处 理 器 的 大 量 文档 。 包 括 从 汇编 语言 程序 员 角 度 来 看 硬件 的 概 
貌 [2，27]， 还 包括 每 条 指令 的 详细 参考 [3，28，29]。 读 指令 描述 很 复杂 ， 原 因 是 1) 所 有 的 文 
档 都 基于 Intel 汇编 代码 格式 ，2) 由 于 不 同 的 寻 址 和 执行 模式 ， 每 条 指令 都 有 多 个 变种 ，3) 没 
有 说 明 性 示例 。 不 过 这 些 文 档 仍 然 是 有 关 每 条 指令 行为 的 权威 参考 。 

组 织 amd64.org 负 责 定 义 运行 在 Linux 系 统 上 的 x86- 64 代 码 的 应 用 二 进 制 接口 
(Applicatioin Binary Interface，ABI) [73]。 这 个 接口 描述 了 一 些 细节 ， 包 括 过 程 链接 、 二 进 制 代 
码 文 件 和 大 量 的 为 了 让 机 器 代码 程序 正确 运行 所 需要 的 其 他 特性 。 

正如 我 们 讨论 过 的 那样 ，GCC 使 用 的 ATT 格式 与 Intel 文档 中 使 用 的 Intel 格式 和 其 他 编译 
器 (包括 Microsoft 编译 器 ) 使 用 的 格式 都 不 相同 。Blum 的 书 [9] 是 为 数 不 多 的 基于 AIT 格式 的 
参考 书 之 一 ， 它 提供 了 大 量 的 描述 关于 如 何 用 asm 命令 在 C 程序 中 舱 人 汇编 代码 。 

Muchnick 的 关于 编译 器 设计 的 书 [76] 被 认为 是 关于 代码 优化 技术 最 全 面 的 参考 书 。 它 涵盖 
了 许多 我 们 在 此 讨论 过 的 技术 ， 例 如 寄存 器 使 用 规则 ， 基 于 循环 代码 的 do-while 形式 产生 代 
码 的 优点 。 

已 经 有 很 多 文章 是 关于 缓冲 区 溢出 通过 因特网 来 攻击 系统 的 。 关 于 1988 年 因特网 蠕虫 
Spafford 出 版 了 详细 分 析 [102]， 并 且 帮 助 阻止 传播 的 MIT 团队 成 员 也 出 版 了 一 些 论著 [40]。 从 
那 以 后 ， 大 量 的 论文 和 项 目 提出 了 各 种 创建 和 阻止 缓冲 区 溢出 攻击 的 方法 。Seacord 的 书 [94] 提 
供 了 关于 缓冲 区 溢出 和 其 他 一 些 对 C 编译 器 产生 的 代码 进行 攻击 的 丰富 信息 。 


家 庭 作 业 
*3.54 ”一 个 函数 的 原型 为 


int decode2 (int x, int y, int 2z); 
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将 这 个 函数 编译 成 IA32 汇编 代码 。 代 码 体 如 下 : 


x at %ebp+8，y at %ebp+12，2 at Whebp+16 


xorl 8(%ebp) , %edx 
imull %edx, heax 


1 movl 16(%ebp) , hedx 
2 subl 12(%ebp) , %edx 
3 movl Wedx, heax 

4 sall $15, %eax 

5 sarl $15, Weax 

6 

7 


A Ss ga 12 和 16 的 地 方 。 代 码 将 返 
回 值 存 放 在 寄存 器 $eax 中 。 
写 出 等 价 于 我 们 汇编 代码 的 decode2 的 C 代码 。 

*3.55 ”下面 的 代码 计算 x 和 y 的 乘积 ， 并 将 结 暴行 放 在 行 储 天 中 。 数据 类 型 11 七 被 定义 为 等 价 于 je long。 


typedef long long 11._t; 
void store_prod(11_t *dest, 11l_t x, int y) { 


*dest = x*y; 


} 
GCC 生成 下 面 的 汇编 代码 实现 计算 : 


dest at hebp+8, x at %ebpt+12, y at Webp+20 


1 movl 12(%ebp) , %esi 

2 mov]l 20(%ebp) ，%eax 

L movl %eax, hedx 
sarl $31, hedx 

$ movl %edx, %ecx 

6 imull]l %esi, %ecx 

7 movl 16(%ebp) ， pebx 

8 . imull  %eax，Xebx 

9 addl %ebx, Whecx 

10 mull hesi 

11 leal (%ecx ,%edx) , Wedx 

12 movl 8(%ebp)., %ecx 

13 movl eax, (hecx) 

14 moV1 %edx, 4(%ecx) 


这 段 代 码 用 了 三 个 乘法 来 实现 多 精度 运算 ， 这 个 多 精度 运算 是 在 32 位 机 器 上 实现 64 位 运算 所 需 
要 的 。 描 述 用 来 计算 这 个 乘积 的 算法 ， 并 对 汇编 代码 添加 注释 ， 说 明 它 是 如 何 实现 现 你 的 算法 的 。 
提示 : 参考 练习 题 3.12 及 其 答案 。 

**3.56 考虑 下 面 的 汇编 代码 : 


X at hebp+8, n at hebp+12 


1 movl 8(%ebp), %esi 

2 movl 12(%ebp) , %ebx 

3 movl $1431655765，%edi 
4 movil $-2147483648，%edx 
S “LL2: 

6 movl %edx, weax 

7 andl %esi, heax 

8 xorl Weax, %edi 

9 movl hebX ， %ecx 

10 shrl Wcl, Wedx 
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11 test1 ‘Wedx, %edx 
12 jne .L2 
13 movl Wedi, heax 


以 上 代码 是 以 下 整体 形式 的 C 代码 编译 产生 的 : 





1 int loop(int x, int n) 

2 1 

3 int result = . ..;) 

4 int mask,; 

5 for (mask =.. ;mask . ;mask = 站 
6 result “= .i ); : 

7 } 

8 return result,; 

9 } 


你 的 任务 是 填写 这 个 C 代码 中 缺失 的 部 分 ， 得 到 一 个 程序 等 价 于 产生 的 汇编 代码 。 回 想 一 下 ， 这 个 
函数 的 结果 是 在 寄存 器 seax 中 返回 的 。 你 会 发 现 以 下 工作 很 有 帮助 : 检查 循环 之 前 、 之 中 和 之 后 


， 的 汇编 代码 ， 形 成 一 个 寄存 器 和 程序 变量 之 间 一 致 的 映射 。 


** 3.57 


** 3.58 


A. 哪个 寄存 器 保存 着 程序 值 x、n、result 和 mask ? 

B. result 和 mask 的 初始 值 是 什么 ? 

C. mask 的 测试 条 件 是 什么 ? 

D. mask 是 如 何 被 修改 的 ? 

E. result 是 如 何 被 修改 的 ? 

F. 填写 这 段 C 代码 中 所 有 缺失 的 部 分 。 

在 3.6.6 节 ， 我 们 查看 了 下 面 的 代码 ， 作 为 使 用 条 件数 据 传 输 的 一 种 选择 : 


int cread(int *xp) { 

return (xp ? *xp : 0) ; 
> , 
我 们 给 出 了 使 用 条 件 传送 指令 的 一 个 尝试 实现 ， 但 是 认为 它 是 不 合法 的 ， 因 为 它 试图 从 一 个 空地 址 
写 一 个 C 函数 cread alt， 它 与 cread 有 一 样 的 行为 ， 除 了 它 可 以 被 编译 成 使 用 条 件数 据 传送 。 当 
用 命令 行 选项 '-march=i686' 来 编译 时 ， 产 生 的 代码 应 该 使 用 条 件 传 送 指令 而 不 是 某 种 跳 转 指令 。 
下 面 的 代码 是 在 一 个 开关 语句 中 根据 枚 举 类 型 值 进行 分 支 选 择 的 例子 。 回 忆 一 下 ，C 语言 中 枚 举 类 
型 只 是 一 种 引入 一 组 与 整数 值 相对 应 的 名 字 的 方法 。 黑 认 情况 下 ， 值 是 从 0 向 上 依次 由 给 名 字 的 。 
在 我 们 的 代码 中 ， 省 略 了 与 各 种 情况 标号 相对 应 的 动作 。 


/* Enumerated type creates set of constants numbered 0 and upward */ 
typedef enum {MODE_A, MODE._B, MODE_C, MODE_D, MODE_E} mode._t; 


int switch3(int *pi, int *p2, mode_t action) 
{ 

int result = 0; 

switch(action) { 

case MODE_A: 


case MODE._B: 


case MODE_C: 


case MODE_D : 


case MODE_E: 


default: 


} 


.return result; 
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产生 的 实现 各 个 动作 的 汇编 代码 部 分 如 图 3-43 所 示 。 注 释 指 明了 参数 人 位置， 寄存器 值 ， 以 及 各 个 跳 
转 目 的 的 情况 标号 。 寄 存 器 $edx 对 应 于 程序 变量 result， 并 被 初始 化 为 一 1。 填 写 C 代码 中 缺失 
的 部 分 。 注 意 那些 会 落 入 其 他 情况 中 的 情况 


Arguments: pl at hebp+8, p2 at %ebp+12, action at ee 


hegisters;: 


The jump targets: 


.L17: 


movil 


jmp 
LL13: 
movl 
movl 
movl 
movl 
movl 
movl 
jmp 
.Li14: 
movl 
movl 
movl 
movl 
addl 
movl 
movl 
jmp 
.L155: 
movil 
movl 
movl 
movl 
jmp 
.L16;: 
moVJ] 
moV] 
movl 
movl 
movl 
.L19: 
movl 


$17, Wedx 
.L19 


8(%ebp) , heax 
(%eax) , hedx 
12(%ebp), %ecx 
(Wecx) , heax 
8(Xebp) , %ecx 
Weax, (Xecx) 
.L19 


12(%ebp), %edx 


(hedx) , heax 


Weax, %edx 
8(%ebp) , %ecx 
(Xecx) , hedx 
12(%ebp) ， %eax 


Xedx, (%eax) 


.L19 


12(%ebp) ,Wedx 
$15, (%edx) 
8(%ebp) , %ecx 
(%ecx) , %edx 
.L19 


8(pebp) , %edx 
(hedx) ， heax 
12(%ebp), %ecx 
Weax, (Xecx) 
$17, Wedx 


%edx, %eax 





result in Wedx (initialized to -1) 


MODE_E 


MODE _4 


MODE_C 


derauilt 
Set return value 


图 3-43 家庭 作业 3.58 的 汇编 代码 。 这 段 代码 实现 了 switch 语句 的 各 个 分 支 


*#*3.59 这 个 程序 给 你 一 个 机 会 ， 逆 向 工程 一 


主体 : 


个 switch 语句。 在 下 面 这 个 过 程 中 ， 去 掉 了 switch 语句 的 
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1 int switch_prob(int x, int 卫 ) 

2 

3 int result = XxX; 

4 

$ switch(n) { 

6 /* Fill in code here */ 
.7 } 

8 return result; 

9  】} 

图 3-44 给 出 了 这 个 过 程 的 反 汇编 机 器 代码 。 我 们 可 以 看 到 ， 在 第 4 行 ， 参数 n 被 加 载 到 寄存 
器 Seax 中 。 


08048420 <switch_prob>: 
8048420: 

8048421: 

8048423 : 

8048426 : 

8048429 : 

804842c : 

804842e : 85 f0 85 04 08 
8048435 : 08 
8048438 : 

804843a : 

804843d: 

8048440 : 

8048442 : 

8048445 : 

8048448 : 

804844a : 

804844d: 

8048450: 

8048452: 

8048455 : 

8048458 : . 

804845b : 

804845e : 

8048461 : 

8048462 : 


%ebp 

%esp ,%ebp 

Oxc (%ebp) ,heax 

$0x28, heax 

$O0x5 , heax 

8048435 RE 
*O0x80485£f0(,%eax ,4) 
Ox8(%hebp) ,heax 

804845e <switch_prob+0x3e> 
Ox8(%ebp) ,heax 

Ox0(%esi) ,%esi 

804845b <switch_prob+0x3b> 
Ox8(%ebp) ,beax 

$O0x3 ,%eax 

8048461 <ewitch_prob+0x41> 
Ox8 (Xebp) ,%eax 

$Ox3 , %eax 

8048461 <switch_prob+Ox41> 
0x8 (%ebp) ,%eax 

$O0x3 ,yeaXx 

Ox8 (Xebp) ,Xeax 

Xeax ,Weax 

$0x11,%eax 

%ebp 
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跳 转 表 驻 留 在 另 一 个 存储 器 区 域 中 。 可 以 从 第 8 行 的 间接 跳 转 看 出 来 ， 跳 转 表 的 起 始 地 址 为 
0x80485f0。 用 调试 器 GDB， 我 们 可 以 用 命令 x/6w 0x80485f0 来 检查 存储 器 中 的 6 个 4 字 节 
的 字 。GDB 打印 出 下 面 的 内 容 

(gdb) x/6w 0x80485f0 


Ox80485£f0: Ox08048442 Ox08048435 0x08048442 0x0804844a 
Ox8048600: 0x08048452 0x0804843a 


用 C 代码 填写 开关 语句 的 主体 ， 使 它 的 行为 与 机 器 代码 一 致 。 
幸 3.60 ”考虑 下 面 的 源 代码 ， 这 里 RR、S 和 了 都 是 用 #define 声明 的 常数 : 


int A[R] [LS] [TJ] ; 


int store_ele(int i, int j, int k,. int *dest) 
{ 

*dest = A[i] [j] [kj; 

return sizeof (A); 
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编译 这 个 程序 ，GCC 产生 下 面 的 汇编 代码 : 


i at %ebp+8， at hebpr12， 大 at hebprld, dest at %ebp+20 


1 movl 8(%ebp), %ecx 

2 movl 12(%ebp) , %eax 

3 leal (Xeax, eax,8), Weax 
4 movl Wecx, Wedx 

5 sall $6, Wedx 

6 subl Wecx, Wedx 

7 addl %edx, %eax 

8 addl 16(%ebp) , %eax 

9 mov]l A(,%eax,4), Wedx 
10 movl 20(%ebp) ，%eax 
讲 movl %edx, (%eax) 

12 movl $2772 ，%eax 


A. 将 等 式 〈3-1) 从 二 维 扩 展 到 三 维 ， 提 供 数 组 元 素 A[i] [j] [k] 的 位 置 的 公式 。 
B. 运用 你 的 逆向 工程 技术 ， 根 据 汇 编 代 码 ， 确 定 丸 、S$ 和 了 的 值 。 

*#y#3.61 C 编译 器 为 var prod ele 产生 的 代码 (图 3-29) 不 能 将 它 在 循环 中 使 用 的 所 有 值 都 放 进 寄存 器 
中 ， 因 此 它 必 须 在 每 次 循环 时 都 从 存储 器 中 读 出 n 的 值 。 写 出 这 个 函数 的 C 代码 ， 使 用 类 似 于 GCC 
执行 的 那些 优化 ， 但 是 它 的 编译 代码 不 会 让 循环 值 洲 出 到 存储 器 中 。 
回忆 一 下 ， 处 理 器 只 有 6 个 寄存 器 可 用 来 保存 临时 数据 ， 因 为 寄存 器 $ebp 和 %esp 不 能 用 于 此 目 
的 。 其 中 一 个 寄存 器 还 必须 用 来 保存 乘法 指令 的 结果 。 因 此 ， 你 必须 把 循环 中 的 值 的 数量 从 6 个 
(result、Arow、Bcol、j、n 和 4*n) 减少 到 5 个 。 
需要 找到 一 个 对 你 那 种 编译 器 行 之 有 效 的 策略 。 不 断 尝 试 各 种 不 同 的 策略 ， 直 到 有 一 种 能 工作 。 

**3.62 下 面 的 代码 转 置 一 个 MXM 矩 阵 的 元 素 ， 这 里 M 是 一 个 用 #define 定义 的 常数 : 


void transpose(int ALM] [M]) { 
int 1, j; 
for (i = 0; i < M; i++) 
for (j = 0; j < i; j++) { 
int t = A[i] [jj; 
A[i] [j] = AD] [i]; 
A[j] [i] = t; 
} 
} 


当 用 优化 等 级 -02 编译 时 ，GCC 为 这 个 函数 的 内 循环 产生 下 面 的 代码 : 


] . 工 3 : 

2 mov]l (Webx) , %eax 

3 movl (Xesi,Xhecx,4), %edx 
4 moV1 Yeax，(%esi ,Xecx,4) 
5 addl $1, hecx 

6 movl %edx, (%ebx) 

7 addl $76, hebx 

8 cmpl Xedi, %ecx 

9 j1 .L3 


A. M 的 值 是 多 少 ? 
B. 哪个 寄存 器 保存 着 程序 值 T 和 jz? 
”C. 写 transpose 的 一 个 C 代码 版 本 ， 使 用 在 这 个 循环 中 出 现 的 优化 。 在 你 的 代码 中 ， 使 用 参数 M， 
而 不 要 用 常数 值 。 四 
**3.63 考虑 下 面 的 源 代码 ， 这 里 E1 和 E2 是 用 #define 声明 的 宏 表达 式 ， 计 算 用 参数 nn 表示 的 矩阵 和 A 的 
维度 。 这 段 代码 计算 和 矩阵 的 第 三 列 的 元 素 之 和 。 
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| int sum_col(int n, int A[E1(n)] [E2(n)], int j) { 
2 int i; 

3 int result = 0; 

4 for (i = 0; i < Ei(n); i++) 

5$ result += A[i]{[j]; 

6 return result,; 

7 


} 
编译 这 个 程序 ，GCC 产生 下 面 的 汇编 代码 : 


n at Hebp+8, A at hebp+12, 7 at hebp+16 
movl 8(%ebp), %edx 


1 

2 leal (Wedx ,Wedx) ,heax 
3 leal -1(%eax) , %ecx 

4 leal (Xeax,%edx) , Wesi 
5 movl $0, heax 

6 test] ‘hesi, Wesi 

7 jle .L3 

8 leal 0O(,W%ecx,4), hebx 
9 movl 16(%ebp) , heax 

10 movl 12(%ebp) , hedx 

11 leal (Wedx,%eax,4), Whecx 
12 movl $0, %edx 

13 movl $0, heax 

14 .L4: 

15 addl (Wecx) , heax 

16 addl $1, Wedx 

17 addl Webx, hecx 

18 cmpl hesi, hedx 

19 jl . 工 4 

20 . 工 3 : 


运用 你 的 逆向 工程 技术 ， 确 定 El 和 了 2 的 定义 。 

*#k3.64 这 个 作业 要 查看 GCC 为 参数 和 返回 值 中 有 结构 的 函数 产生 的 代码 ， 由 此 可 以 看 到 通常 这 些 语言 特性 
是 如 何 实现 的 。 
下 面 的 C 代码 是 函数 word_sum， 它 用 结构 作为 参数 和 返回 值 ， 还 有 一 个 函数 diff 调用 word_sum : 


typedef struct { 
int *p; 
int v; 

} stri; 


typedef struct { 
int prod; 
int Sum ; 

} str2; 


str2 word_sum(str1 si1) { 
str2 result; 
result.prod = *sl.p * si.v; 


result.sum = *sl.p + si.vy,; 
return result; 


int diff(int x, int y) 


stril si; 
str2 s2; 
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sl.p = &x; 

sl.v= y; 

s2 = word_sum(s1); 
return s2.prod - s2.sunm; 


} 
GCC 为 这 两 个 函数 产生 下 面 的 代码 : 


diff: 

pushl  %ebp 
moV1] %esp, %ebp movl Xesp, %ebp 
pushl %ebx subl $20，%esp 


1 Word_sum: 1 
2 2 
3 3 
4 4 
5 movl 8(%ebp) ，%eax 3 leal -8(hebp), %edx 
6 6 
7 7 
8 8 
9 


pushl  %ebp 


movl 16(%ebp) ， ebx leal 8(%hebp), %eax 


mov] 12(%ebp) , %edx .nmOV1 heax, 4(hesp) 

movl (pedx) ,Wwedx movl 12(%ebp) ，%eax 
9 leal (Wedx,%ebx) , hecx movl heax, 8(%esp) 
10 movl Wecx, 4(%eax) 10 mov]l %edx, (%esp) 
11 imull hebx, %edx 11 call word_sum 
12 movl hedx, (heax) 12 subl $4, wesp 
13 popl %ebx 13 movl -8(%ebp) ， heax 
14 popl hebp 14 subl -4(%ebp) , heax 
15 ret $4 15 leave 

16 ret 


指令 ret $4 很 像 普通 的 返回 指令 ,但 是 它 将 栈 指针 增加 了 8 (4 个 是 为 了 返回 地 址 ， 加 上 4 的 加 

法 )， 而 不 是 4。 

A. 从 word_sum 代码 的 第 5 一 7 行 我 们 可 以 看 到 ， 虽 然 函 数 只 有 一 个 参数 ， 但 是 看 上 去 好 像 从 栈 中 
取出 了 3 个 值 。 描 述 这 三 个 值 分 别 是 什么 。 : 

B. 从 diff 代码 的 第 4 行 我 们 可 以 看 到 ， 栈 帧 中 分 配 了 20 个 字 节 。 把 它们 当 作 5 个 字段 来 使 用 ， 每 
个 字段 4 个 字 节 。 描 述 每 个 字段 都 是 怎么 用 的 。 

C. 你 要 如 何 描述 向 函数 传递 结构 参数 的 通用 策略 ? 

D. 你 要 如 何 描述 处 理 从 函数 返回 结构 值 的 通用 策略 ? 

半 3.65 在 下 面 的 代码 中 ，4 和 和 B 是 用 #define 定义 的 常数 : 


typedef struct { 
Short x[A][B]; /* Unknown constants A and B */ 
int y; 

} stri; 


typedef struct { 
char array[B] ; 
int t; 
short s[B]; 
int u; 

} str2; 


void setVal(stri *p, str2 *q) { 
int vi = q->t; 
int v2 = q->U; 
p->y = vitv2; 

} 


GCC 为 setVal 的 主体 产生 下 面 的 代码 : 


1 movl 12(%ebp) ,heax 
2 movl 28(%eax) , %edx 
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3 addl 8(%eax) , hedx 
4 movl 8(%ebp) , heax 
S mov1 Wedx, 44(%eax) 


A 和 B 的 值 是 多 少 ? (答案 是 唯一 的 。) 
* 3.66 你 负责 维护 一 个 大 型 的 C 程序 时 ， 明 到 下 面 这 样 的 代码 : 
1 typedef struct { 
2 int left; 
3 a_struct a[CNT] ; 
4 int right; 
5 }b_struct; 
6 
7 
8 
9 


void test(int i, b_struct *bp) 


t 
int n = bp->left + bp->right; 
10 a_struct *ap = &bp->a[i] ; 
11 ap->Xx[ap->idx] = 7; 
12 


编译 时 常数 CNT 和 结构 a_struct 的 声明 在 一 个 你 没有 访问 权限 的 文件 中 。 幸 好 ， 你 有 代码 的 
' .0' 版 本 ， 可 以 用 OBJDUMP 程序 来 反 汇 编 这 些 文件 ， 得 到 如 图 3-45 所 示 的 反 汇 编 代码 。 


00000000 <test>: 
0: %ebp 
: %esp,%ebp 
%ebx 
Ox8(%ebp) ,%eax 
Oxc(%ebp) ,%ecx 
$Oxic,%eax, hebx 
00 00 00 00 Ox0(,%eax,8),%edx 
%eax ,Wedx 
19 04 Ox4(%ecx,%ebx,1),%edx 


(Wecx) ,%eax 
91 08 %eax,Ox8(%ecx, hedx,4) 
Webx 


3 
4 
7 
a 
d 
14 
16: 
1a: c8 00 00 00 Oxc8(%ecx) ,%eax 
20 
22 
26 
27 %ebp 
28 





图 3-45 ”家 庭 作业 3.66 的 反 汇编 代码 


运用 你 的 逆向 工程 技术 ， 推 断 出 下 列 内 容 : 

A. CNT 的 值 。 

B. 结构 a_struct 的 完整 声明 。 假 设 这 个 结构 中 只 有 字段 jdx 和 x。 
* 3.67 考虑 下 面 的 联合 声明 : : 


union ele +{ 
struct { 
int *p; 
int xXx; 
} el; 
struct { 
int y; 
union ele *next; 
} e2; 
上 3 


这 个 声明 说 明 联 合 中 可 以 嵌 套 结构 。 


*3.68 


*3.69 
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下 面 的 过 程 (省 略 了 一 些 表达 式 ) 对 一 个 链表 进行 操作 ， 链 表 是 以 上 述 联合 作为 元 素 的 : 


void proc (union ele *up) 








up-> .= *(up-> ) - up-> TR 
} 
A. 下列 字段 的 偏 移 量 是 多 少 ( 以 字 节 为 单位 ) : 
= 
= 
S207 
e2.next: _ 


B. 这 个 结构 总 共 需 要 多 少 个 字 节 ? 
C. 编译 器 为 proc 的 主体 产生 下 面 的 汇编 代码 : 


up at hebp+3 


1 movl 8(%ebp), %edx 
2 movl 4(%edx) , %ecx 
3 movl (Wecx) ,Weax 
4 movl (Weax) , %eax 
5 subl (Wedx) , heax 
6 movl Weax, 4(%ecx) 


21]1 


在 这 些 信息 的 基础 上 上， 填写 Proc 代码 中 缺失 的 表达 式 。 提 示 : 有 些 联 合 引 用 的 解释 可 以 有 歧义 。 
当 你 清楚 引用 指引 到 哪里 的 时 候 ， 就 能 够 澄清 这 些 歧 义 。 只 有 一 个 答案 ， 不 需要 进行 强制 类 型 转换 ， 


且 不 违反 任何 类 型 限制 。 


写 一 个 函数 good echo， 它 从 标准 输入 读 取 一 行 ， 再 把 它 写 到 标准 输出 。 你 的 实现 应 该 对 任意 长 
度 的 输入 行 都 能 工作 。 可 以 使 用 库 函 数 fgets， 但 是 你 必须 确保 即使 当 输 入 行 要 求 比 你 已 经 为 缓冲 
区 分 配 的 更 多 的 空间 时 ， 你 的 函数 也 能 正确 地 工作 。 你 的 代码 还 应 该 检查 错误 条 件 ， 要 在 遇 到 1 时 


返回 。 参 考 标准 IO 函数 的 定义 文档 [48，58]。 
下 面 的 声明 定义 了 一 类 结构 ， 用 来 构建 二 又 树 : 


1 typedef struct ELE *tree_ptr; 
2 

3 struct ELE { 

4 tree_ptr left,; 

5 tree_ptr right; 

6 long val; 

7 

对 于 具有 如 下 原型 的 函数 : 


long trace(tree_ptr tp); 


GCC 产生 下 面 的 x86-64 代码 : 


1 trace: 
tp in wrdi 
2 movl $0, heax 
3 testq wrdi, %rdi 
4 je .L3 
S .L5: 
6 movg 16(%rdi), %rax 
7 movqg (%rdi), %rdi 
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9 
10 
11 
12 


A. 给 出 一 个 该 函数 的 C 版 本 ， 使 用 while 循环 。 
B. 用 自然 语言 解释 这 个 函数 计算 的 是 什么 。 


荐 一 部 分 


testq 
jne 
.L3: 
rep 
ret 


在 序 绍 枢 和 执 疗 


%rdi, %rdi 
.L5 


**3.70 用 家 庭 作业 3.69 中 的 树 结 构 ， 以 及 一 个 具有 以 下 原型 的 函数 


long traverse(tree_ptr tp) ; 


GCC 产生 下 面 的 x86-64 代码 : 


1 


Sd Sh dd A 
D> hu 一 已 


DD NN 人 NN NN 一 
nm NN 一 OO 记 


traverse: 

tp in wrdi 
movg 
movg 
movg 
subq 
movqg 
movabsqg 
testq 
je 
movg 
movg 
call 
movg 
movg 
call 
cmpq 
cmovle 
cmpq 
cmoveg 

.19: 

movqg 
moVd 
movVvd 
adddq 
ret 


%rbx, -24(%rsp) 
%rbp, -16(%rsp) 
kr12, -8(%rsp) 


$24, %rsp 
%rdi, %rbp 


$9223372036854775807，%rax 


%rdi, %rdi 
.L9 


16(%rdi), %rbx 
(%rdi), %rdi 


traverse , 
Wrax, %r12 


8(%rbp), %rdi 


traverse 
Wrax, %r12 
Wr1i2, %rax 


Wrbx, hrax 


Wrbx, %rax 


(Xrsp), hrbx 
8(%rsp), %rbp 
16(%rsp) , %r12 


$24, hrsp 


A. 生成 这 个 函数 的 C 版 本 。 


B. 用 自然 语言 解释 这 个 函数 计算 的 是 什么 。 


练习 题 答案 


练习 题 3.1 这 个 练习 使 你 熟悉 各 种 操作 数 格式 。 















Weax 


Ox104 
$0x108 
(%eax) 
4(heax) 

9 (Weax ,hedx) 
260 (%ecx ,hedx) 
OxFC( ,hecx ,4) 
(peax ,hedx ,4) 





寄存 器 
绝对 地 址 
立即 数 
地 址 0x100 
地 址 0x104 
地 址 0x10C 
地 址 0x108 
地 址 0x100 
地 址 0x10C 








练习 题 3.2 正如 我 们 已 经 看 到 的 ， 
形式 之 间 转 换 是 一 种 很 重要 的 需要 学 习 的 技能 。 一 个 重要 的 特性 是 ， 在 IA32 中 即使 操作 数 是 一 个 字 节 或 者 
单字 的 ， 存 储 器 的 引用 也 总 是 用 双 字 长 寄存 器 〈 例 如 seax) 给 出 。 

以 下 是 带 后 级 的 代码 : 


1 movl %eax, (%esp) 
2 movw  (%eax), %dx 

3 movb $0OxFF, %bl 

4 movb  (%esp,%edx,4), 

5 pushl $OxFF 

6 movw  %dx, (%eax) 

7 popl  %edi 
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GCC 产生 的 汇编 代码 指令 有 后 经 ， 而 反 汇 编 代 码 没 有 。 能 够 在 这 两 种 


%dh 


练习 题 3.3 ”由 于 我 们 会 依赖 GCC 来 产生 大 多 数 汇编 代码 ， 所 以 能 够 写 正确 的 汇编 代码 并 不 是 一 项 很 关键 
的 技能 。 但 是 ， 这 个 练习 会 帮助 你 熟悉 不 同 的 指令 和 操作 数 类 型 。 
下 面 是 有 错误 解释 的 代码 : : 


mmOVW 


Ni Do Nu 一 


movb 


movb $OxF, (%b1) 
movl %ax, (%esp) 


(Xeax) ,4(%esp) 


movb %ah,%sh 
mov] %eax ,$0Ox123 
movl %eax, dx 
%si, 8(%Xebp) 


Cannot use Ybl aas address register 

Mismatch between instruction suffix and register ID 

Cannot have both source and destination be memory references 
No register named %sh 

Cannot have immediate as destination 

Destination operand incorrect size 

Mismatch between instruction suffix and register ID 


练习 题 3.4 这 个 练习 给 你 更 多 经 验 ， 关 于 不 同 的 数据 传送 指令 ， 以 及 它们 与 C 语言 的 数据 类 型 和 转换 规 


则 的 关系 。 


int 
char 
char 


int moVv] %eax, (%edx) 
int movsbl %hal, (hedx) 
unsigned movsbl %al, (Xedx) 


unsigned char | int movzbl %al, (%edx) 


int 
unsigned 
unsigned 


char movb %al, (Wedx) 
unsigned char movb %al, (Xedx) 
int movl1 Weax, (%edx) 





练习 题 3.5 逆向 工程 是 一 种 理解 系统 的 好 方法 。 因 此 ， 我 们 想 用 逆转 C 编译 器 的 效果 ， 来 确定 什么 样 的 
C 代码 会 得 到 这 样 的 汇编 代码 。 最 好 的 方法 是 进行 “模拟 ”从 值 x*、y 和 zz 开始 ， 它 们 分 别 在 指针 xp、 
yp 和 zp 指定 的 位 置 。 于 是 ， 我 们 可 以 得 到 以 下 效果 : 


Xp at Webp+8, yp at Webp+12, zp at Webp+16 
8(hebp) , %edi Get xp 
12(%ebp), %edx Get yp 
16(%ebp), hecx Get zp 


movl 
movl 
movl 
moVJ] 
movl 
movl 
movl 
movl 
movil 


‘OO ON om nw 一 


(Xedx) ， %ebx 
(Wecx) ,hesi 
(pedi) ， heax 
heax，(%edx) 
%ebx, (hecx) 
Wesi, (%edi) 


Cet y 
Get Z 
Get x 
Store x at yp 
Store 了 at zp 
Store z at xp 


由 此 我 们 可 以 产生 下 面 这 样 的 C 代码 ， 
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void decodel(int *xp, int *yp, int *zZp) 
{ 

int tx = *xp; 

int ty = *yp; 

int tz = *Zp; 


*yp = tx; 
*Zp = ty; 
*xXp = tz2z; 


练习 题 3.6 这 个 练习 说 明了 leal 指令 的 多 样 性 ， 同 时 也 让 你 更 多 地 练习 解读 各 种 操作 数 形式 。 注 意 ， 虽 
然 在 图 3-3 中 有 的 操作 数 格 式 被 划分 为 “存储 器 ”类 型 ， 但 是 并 没有 访 存 发 生 。 





“|leal 6(%eax), whedx 
leal (%eax, Wecx), %edx 
leal (Weax,%ecx,4), Wedx 


leal 7 (%eax ,Xeax ,8), hedx 
leal OxA(,%ecx,4), Wedx 
leal 9(%eax,%ecx,2), %edx 


练习 题 3.7 这 个 练习 使 你 有 机 会 检验 你 对 操作 数 和 算术 指令 的 理解 。 指 令 序 列 被 设计 成 每 条 指令 的 结果 都 
不 会 影响 后 续 指 令 的 行为 。 


addl1 %ecx, (Xeax) 
subl] %edx ,4(%eax) 


imull $16, (Weax ,yedx ,4) 
incl 8(%eax) 

decl %ecx 

subl %edx ,%eax 





练习 题 3.8 ”这 个 练习 使 你 有 机 会 生成 一 点 汇编 代码 。 代 码 由 GCC 生成 。 将 参数 n 加 载 到 寄存 器 $ecx 
中 ， 可 以 用 字 节 寄存 器 $cl 来 指定 sarl 指令 的 移 位 量 : 


1 movl 8(%ebp) ， %eax Get x 
2 sall $2,，%eax xX C= 2 
3 moV1] 12(%ebp), %ecx Get n 
4 sarl %cl, heax x >>= 呈 


练习 题 3.9 这 个 练习 比较 简单 ， 因 为 每 个 表达 式 都 是 由 一 条 指令 来 实现 的 ， 而 且 表 达 式 的 顺序 都 没有 变 。 


5 int tl = x”y; 

6 int t2 = tl >> 3; 

7 int t3 = ~t2; 

8 int t4 = 七 3-Z ; 
练习 题 3.10 


A. 这 个 指令 可 以 将 寄存 器 $edx 设置 为 0， 运用 了 对 任意 xxX^x=0 这 一 属性 。 它 对 应 于 C 语句 x = 0。 

B. 将 寄存 器 sedx 设置 为 0 的 更 直接 的 方法 是 用 指令 mov1 $0，s%edx。 

C. 汇编 和 反 汇 编 这 段 代码 ， 我 们 发 现 使 用 xorl 的 版 本 只 需要 2 个 字 节 ， 而 使 用 movl 的 版 本 需要 5 个 字 节 。 
练习 题 3.11 我 们 可 以 简单 地 把 cLtd 指令 替换 为 将 寄存 器 sedx 设置 为 0 的 指令 ， 并 且 用 divl 而 不 是 
idivl 作为 我 们 的 除法 指令 ， 得 到 下 面 的 代码 : 
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XxX at Webpr+8, y at hebp+12 


movl 8(hebp) ,heax Load x into heax 
movl $0 ,hedx Set high-order bits to 0 
QivJ] 12(%ebp) Unsigned divide by 了 
movl %eax, 4(%esp) Store x/y 
movl %edx, (%esp) Store 和 和 了 

练习 题 3.12 


A. 我 们 可 以 看 到 ， 这 个 程序 是 在 64 位 数据 上 进行 多 精度 操作 。 还 可 以 看 到 ，64 位 乘法 操作 (第 4 行 ) 
使 用 的 是 无 符号 运算 ， 因 此 我 们 可 以 确定 num 七 是 unsigned long long。 

B. 设 x 表 示 变 量 X 的 值 , 表示 yy 的 值 ， 我 们 可 以 写成 yY= 肪 :2 +Jn 这 里 世 和 JJ 分别 是 高 32 位 和 低 
32 位 表示 的 值 。 因 此 可 以 计算 x:y=x':J2 +Hx :Je 乘积 的 完整 表示 是 96 位 长 ， 但 是 我 们 只 需要 低 64 位 。 因 
此 可 以 设 s 为 x'y 的 低 32 位 ,而 1 为 x'y 的 完整 的 64 位 乘积 ， 可 以 将 之 划分 为 高 位 部 分 和 低位 部 分 加 
最 终 的 结果 是 4 是 低位 部 分 ， 而 st 是 高 位 部 分 。 

这 里 是 添加 了 注释 的 汇编 代码 : 


dest at Xebp+8，X at Hebp+12, y at %ebp+i6 


1 movl 12(%ebp) ，%eax Get x 

2 movl 20(%ebp) , %ecx Get yh 

3 imull Weax, %ecx Compute S = xx*y.h 
4 mull 16(%ebp) : Compute t = x*y._l 
5 leal (Xecx,%edx) , %edx Add s to th 

6 moV1 8(%ebp), hecx Get dest 

7 movl Weax, (Wecx) Store 万 

8 movl Wedx, 4(%ecx) Store s+t_h 


练习 题 3.13 ”汇编 代码 不 会 记录 程序 值 的 类 型 ， 理 解 这 点 这 很 重要 。 相 反 地 ， 不 同 的 指令 确定 操作 数 的 大 
小 ， 以 及 它们 是 有 符号 的 还 是 无 符号 的 。 当 从 指令 序列 映射 回 C 代码 时 ， 我 们 必须 做 一 点 儿 侦 查 工 作 ， 推 
断 程 序 值 的 数据 类 型 。 z 

A. 后 经 “1” 和 寄存 器 指示 符 表明 是 32 位 操作 数 ， 而 比较 是 对 补 码 的 “<: 。 我 们 可 以 推断 data 一 
定 是 int。 

B. 后 级“w” 和 寄存 器 指示 符 表 明 是 16 位 操作 数 ， 而 比较 是 对 补 码 的 “>=:。 我 们 可 以 推断 data 七 
一 定 是 short。 

C. 后 级 “bp” 和 寄存 器 指示 符 表 明 是 8 位 操作 数 ， 而 比较 是 对 无 符号 数 的 “<: 。 我 们 可 以 推断 data 七 
一 定 是 unsigned char。 

D. 后 级 “1” 和 寄存 器 指示 符 表 明 是 32 位 操作 数 ， 而 比较 是 “!=” 符号 、 无 符号 和 指针 参数 都 是 一 样 
的 。 我 们 可 以 推断 aata 七 可 以 是 int、unsigned 或 者 某 种 形式 的 指针 。 对 于 前 两 种 情况 ， 它 们 的 指示 
符 也 可 以 是 1ong 大 小 的 。 
练习 题 3.14 ”这 道 题 与 练习 题 3.13 类 似 ， 不 同 的 是 它 使 用 了 TEST 指令 而 不 是 CMP 指令 。 

A. 后 级“1” 和 寄存 器 指示 符 表明 是 32 位 操作 数 ， 而 比较 是 “!=:， 这 个 对 有 符号 和 无 符号 都 是 一 样 
的 。 我 们 可 以 推断 data_t 一 定 是 int、unsigned 或 某 种 类 型 的 指针 。 对 于 前 两 种 情况 ， 它 们 的 指示 符 
也 可 以 是 1ong 大 小 的 。 

B. 后 缀 “w” 和 寄存 器 指示 符 表 明 是 16 位 操作 数 ， 而 比较 是 “一 '， 这 个 对 有 符号 和 无 符号 都 是 一 样 
的 。 我 们 可 以 推断 data 鞋 一 定 是 short 或 者 unsigned short。 

C. 后 级 “pb” 和 寄存 器 指示 符 表 明 是 8 位 操作 数 ， 而 比较 是 对 补 码 的 “>*。 我 们 可 以 推断 data 一 
定 是 char。 

D. 后 级 “w” 和 寄存 器 指示 符 表 明 是 16 位 操作 数 ， 而 比较 是 对 无 符号 的 “> 。 我 们 可 以 推断 data t 


一 定 是 unsigned short。 
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练习 题 3.15 ”这 个 练习 要 求 你 仔细 检查 反 汇 编 代 码 ， 并 推出 跳 转 目标 的 编码 。 同 时 练习 十 六 进 制 算术 。 
A. je 指令 的 目标 为 0x8048291+0x05。 如 原始 的 反 汇 编 代 码 所 示 ， 这 就 是 0x8048296。 


804828Tf : 74 05 je 804829f 
8048291 : e8 le 00 00 00 call 80482ba 


B. jb 指令 的 目标 是 0x8048359-25〈 由 于 0xe7 是 -25 的 一 个 字 节 的 补 码 表示 )。 如 原始 的 反 汇编 
代码 所 示 ， 这 就 是 0x8048340 : 


8048357 : 72.e7 jb 8048340 
8048359 : c6 05 10 a0 04 08 01 movb $0xi,0x804a010 


C. 根据 反 汇编 器 产生 的 注释 ， 跳 转 目标 是 绝对 地 址 0x8048391。 根 据 字 节 编码 ， 一 定 在 距离 mov 指 
令 0x12 的 地 址 处 。 减 去 这 个 值 就 得 到 地 址 0x804837f， 反 汇编 代码 也 证 实 了 这 一 点 : 


804837d: 74 12 je 8048391 
804837f: b8 00 00 00 00 mov $0x0 , peax 


D. 以 相反 的 顺序 来 读 这 些 字 节 ， 我 们 看 到 目标 偏 移 量 是 0xffffffe0， 或 者 十 进 制 数 一 32。0x80482c4(nop 
指令 的 地 址 ) 加 上 这 个 值得 到 地 址 0x80482a4 : \ 


80482bf: e9 e0 ff ff ff jmp 80482a4 
80482c4: 90 nop 


E. 间接 跳 转 用 指令 代码 Ef 25 表示 。 要 读 取 跳 转 目 标的 地 址 在 接 下 来 的 4 个 字 节 中 明确 地 编码 出 来 。 
由 于 机 器 是 小 端的 ， 所 以 以 相反 的 顺序 给 出 就 是 fc 9f 04 08。 
练习 题 3.16 ”对 汇编 代码 写 注释 ， 并 且 模 仿 它 的 控制 流 来 编写 C 代码 ， 是 理解 汇编 语言 程序 很 好 的 第 一 
步 。 本 题 是 一 个 具有 简单 控制 流 的 示例 。 给 你 一 个 检查 逻辑 操作 实现 的 机 会 。 

A. 这 里 是 C 代码 : 


1 void goto_cond(int a, int *p) 二 
> if (p == 0) 

3 goto done ; 
4 if (a <= 0) 

5 goto done ; 
6 *p += a; 
7 done : 

8 return,; 


9 } 


B. 第 一 个 条 件 分 支 是 && 表达 式 实现 的 一 部 分 。 如 果 对 pp 为 非 空 的 测试 失败 ， 代 码 会 跳 过 对 a>0 的 测试 。 
练习 题 3.17 ”这 个 练习 帮助 你 思考 一 个 通用 的 翻译 规则 的 思想 以 及 如 何 应 用 它 。 
A. 转换 成 这 种 替代 的 形式 ， 只 需要 调换 一 下 几 行 代码 : 


int gotodiff_alt(int x, int y) { 
int result; 
if (x < y) 
goto true; 
result = x 一 y; 
goto done ; 
true: 
result = y- xX; 
done: 
10 return result, 


11 } 
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B. 大 多 数 情况 下 ， 可 以 在 这 两 种 方式 中 任意 选择 。 但 是 原来 的 方法 对 常见 见 的 没有 else 语句 的 情况 更 
好 一 些 。 对 于 这 种 情况 ， 我 们 只 简单 地 将 翻译 规则 修改 如 下 : 


t = jest-eXPDF; 


if 


(!1t) 


goto done; 


then-statement 


Qone : 


基于 这 种 替代 规则 的 翻译 更 麻烦 一 些 。 


练习 题 3.18 这 个 题目 要 求 你 完成 一 个 嵌 套 的 分 支 结 构 ， 在 此 你 会 看 到 如 何 使 用 翻译 if 语句 的 规则 。 
于 大 部 分 情况 ， 机 器 代码 就 是 C 代码 的 直接 翻译 。 唯 一 的 区 别 就 是 初始 化 表达 式 〈C 代码 中 的 第 2 行 ) 向 


下 移 了 〔〈 移 到 汇编 代码 中 的 第 15 行 )， 这 样 一 来 ， 只 有 当 确 定 它 就 是 返回 值 的 时 候 ， 才 会 计算 它 。 


练习 题 3.19 


int val 
if (x < 
if (人 


else 


} else i 
val 


int test(int x, int y) { 


二 XYy; 
-3) { 
y < xXx) 
val = x*y; 


Val = xt+y; 
f (x > 2) 
一 X~y; 


return val; 


A. 如 果 构 建 一 张 阶乘 表 ， 使 用 数据 类 型 int 来 计算 ， 


我 们 可 以 看 到 ， 


24 

120 

720 

5 040 

40 320 

362 880 

3 628 800 

39 916 800 
479 001 600 
1 932 053 504 
1 278 945 280 





得 到 下 面 这 样 的 表 : 


忆 KRKRKRKRKRRRRRRRRS 


过 计算 n!/n， 看 是 否 等 于 (n-1) ! 来 测试 n! 的 计算 是 否 溢出 了 。 

B. 用 数据 类 型 long long 来 计算 ， 直 到 20! 才 溢 出 ， 得 到 2 432 902 008 176 640 000。 
练习 题 3.20 ”编译 循环 产生 的 代码 可 能 会 很 难 分析 ， 因 为 编译 器 对 循环 代码 可 以 执行 许多 不 同 的 优化 ， 也 
因为 可 能 很 难 把 程序 变量 和 寄存 器 匹配 起 来 。 我 们 从 一 个 相当 简单 的 循环 开始 练习 这 项 技能 。 

A. 简单 地 看 一 下 是 如 何 取 参 数 的 ， 就 能 确定 寄存 器 的 使 用 。 


对 


14! 洲 出 了 ， 因 为 数字 停止 了 增 大 。 正 如 在 练习 题 2.35 中 学 到 的 那样 ， 我 们 还 可 以 通 
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B. body-statement 部 分 在 C 代码 中 由 第 3 行 到 第 5 行 组 成 ， 在 汇编 代码 中 是 第 5 行 到 第 7 行 。test-expr 


部 分 在 C 代码 中 是 第 6 行 。 在 汇编 代码 中 ， 是 用 第 8 行 到 第 11 行 的 指令 实现 的 。 
C. 添加 注释 的 代码 如 下 : 


x at %ebp+8，y at Woebp+12, n at %ebpr16 


1 movl 8(%ebp) , heax Get x 

2 movil 12(%ebp), hecx Get 了 

3 movl 16(%ebp), hedx (etn 

4 , 工 2 : loop: 

5 addl Wedx, heax xX + 六 

6 imul1 wedx, wecx ¥ *= 

7 subl $1, %edx n~- 

8 testl wedx, hedx Tegst n. 

9 jle .上 5 if <= 0, goto done 
10 cmpl Wedx, %ecx Compare yn 

11 jl1 .L2 Tif <. goto loop 
12 LD: done: 


同 练习 题 3.16 中 的 代码 一 样 ， 实 现 有 &&& 运算 需要 两 个 条 件 分 支 。 
练习 题 3.21 ”这 个 题目 展示 了 编译 器 所 做 的 变换 为 何 使 产生 的 汇编 代码 难以 理解 。 


A. 可 以 看 到 寄存 器 被 初始 化 成 atb， 然 后 每 次 循环 都 加 一 。 类 似 地 ，a 的 值 〈 保 存在 寄存 器 %ecx 中 ) 
每 次 循环 也 会 加 一 。 因 此 我 们 可 以 看 到 寄存 器 $edx 中 的 值 总 是 等 于 at+b。 我 们 把 它 叫 做 apb， 即 a 加 上 


b (a plus b)。 
B. 下 面 是 寄存 器 使 用 表 : 





C. 添加 注释 的 代码 如 下 : 


Arpuments: a at %ebp+8. b at hebp+12 
Registers: a iD Yecx, b in Kebx, result in Yeax, Yedx set to apb (a+b) 


1 mov]l 8(%ebp) , hecx Get a& 

2 movl 12(%ebp) ， %ebx Get b 

3 movl $1, %eax Set result = 1 

4 cmpl %ebx, hecx Compare a:b 

5 jge .L11 If >=，8Soto done 
6 leal (Xebx,%ecx) ,hedx Compute apb = a+b 
7 movl $1, heax Se result = 1 

8 .L12: loop: 

9 imull %edx, Wheax Compute result *= apb 
10 addl $1, Whecx Compute a++ 

11 addl $1, wedx Compute apb+t+ 

12 ”Cnmp1 Wecx, /ebx Compare bi:a 

13 jg .Li12 If >, goto 1oop 
14 .L1i: done: 


feturn result 
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”DD. 等 价 的 goto 代码 如 下 ， 


int loop_while_goto(int a, int b) 


1 

2 二 

3 int result = 1; 
4 if (a >= b) 

5 goto done ; 
6 /* apb has same Value as af+b in original code */ 
7 int apb = atb; 
8 loop: 

9 result *= apb,; 
10 3+ 十 ; 

11 apb++ ; 

12 if (b > a) 

13 goto loop; 
14 done : 

15 return result,; 
16 } 


练习 题 3.22 能够 从 汇编 代码 工作 回 C 代码 ， 是 逆向 工程 的 一 个 主要 例子 。 
A. 以 下 是 原始 的 C 代码 : 


int fun_a(unsigned X) { 
int val = 0; 


while (x) { 
val “= xX; 
X >>= 1; 
} 


return val & Oxil; 


} 


B. 这 个 代码 计算 参数 x 的 奇偶 性 。 也 就 是 ， 如 果 x 中 有 奇数 个 1， 就 返回 1， 如 果 有 偶数 个 1， 就 返回 0。 
练习 题 3.23 这 个 问题 比 练习 题 3.22 要 难 一 些 ， 因 为 循环 中 的 代码 更 复杂 ， 而 整个 操作 也 不 那么 熟悉 。 
A. 以 下 是 原始 的 C 代码 : 


int fun_b(unsigned x) { 

int val = 0; 

int i; 

for (i = 0; i < 32; i++) { 
val = (val << 1) | (x & Ox1); 
X >>= 1; 

} 

return val; 


} 


B. 这 段 代码 把 x 中 的 位 反 过 来 ， 创 造 一 个 镜像 。 实 现 的 方法 是 : 将 x 的 位 从 左 往 右 移 ， 然 后 再 填 入 这 

” 些 位 ， 就 像 是 把 val 从 右 往 左 移 。 

练习 题 3.24 ”我们 把 for 循环 翻译 成 while 循环 的 规则 有 些 过 于 简单 一 一 这 是 唯一 需要 特殊 考虑 的 方面 。 
A. 使 用 我 们 的 翻译 规则 会 得 到 下 面 的 代码 : 


/* Naive translation of for loop into while loop */ 
/* WARNING: This is buggy code */ 
int sum = 0; 
int i = 0; 
while (i < 10) { 
if (i & 1) 
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/* This will cause an infinite loop */ 
continue,; 

sum += i; 

it++; 


} 


因为 continue 语 和 名 会 阻止 索引 变量 i 被 修改 ， 所 以 这 段 代 码 是 无 限 循 环 。 
B. 通 用 的 解决 方法 是 用 goto 语句 替代 continue 语句 ， 它 会 跳 寺 循环 体 中 余下 的 部 分 ， 直 接 跳 到 
update 部 分 : | 


/* Correct translation of for loop into while loop */ 
int sum = 0; 
int i = 0; 
while (i < 10) { 

if (i & 1) 

goto Update ; 

sum += i; 
update: 

i++; 


} 


练习 题 3.25 ”这 个 题目 加 强 了 我 们 计算 预测 错误 惩罚 的 方法 。 

A. 我 们 可 以 直接 应 用 公式 ， 得 到 Tiz=2X(31-16)=30。 

B. 当 预 测 错误 发 生 时 ， 函 数 会 需要 大 约 16+30=46 个 周期 。 
练习 题 3.26 这 个 题目 提供 了 一 个 机 会 研究 条 件 传送 使 用 。 z 

A. 运算 符 是 “/，。 我 们 看 到 这 个 例子 是 通过 右 移 来 实现 除 以 2 的 军 〈 参 见 2.3.7 节 )。 当 被 除数 是 负数 
时 ， 在 右 移 k=2 位 之 前 ， 我 们 必须 加 上 一 个 偏 置 2 一 1=3。 

B. 以 下 是 汇编 代码 添加 注释 的 版 本 : 


Computation by function arith 


Register: x in %odx 


1 leal 3(%edx) , heax temp = Xx*3 

2 testl Wedx, %edx Test x 

3 cmovns ‘hedx, heax If >= 0, temp = x 

4 sarl $2,%eax Return temp >> 2 (= x/4) 


程序 创建 了 一 个 临时 变量 ， 等 于 x+3， 预 期 x 是 负数 ， 因 而 需要 偏 置 。 当 x 宇 0 时 ， cmovns 指令 会 将 
这 个 数 有 条 件 变 为 x， 然 后 再 右 移 2 位 ， 得 到 x/4。 
练习 题 3.27 这 个 题目 类 似 于 练习 题 3.18， 除 了 有 些 条 件 语句 是 用 条 件数 据 传送 实现 的 。 虽 然 将 这 段 代 码 
装 进 原始 的 C 代码 中 看 起 来 有 些 令 人 惧怕 ， 但 是 你 会 发 现 它 相当 严格 地 遵守 了 翻译 规则 。 


1 int test(int x, int y) { 
2 int val = 4*x; 

3 if (y > 0) 二 

4 if (x < y) 

5 val = x-y; 

6 else 

7 Val = x“y; 

8 } else if (y < -2) 

9 val = X+y ; 

10 return Val ; 


11 } 
练习 题 3.28 ”这 个 练习 给 你 一 个 机 会 ， 练 习 推 算 switch 语句 的 控制 流 。 要 求 你 将 汇编 代码 中 的 多 处 信息 
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0 : 
1. 汇编 代码 的 第 2 行将 x 加 上 2， 将 情况 (cases) 的 下 界 设置 成 0。 这 就 意味 着 最 小 的 情况 标号 《case 
lable) 为 一 2。 
2. 当 调整 过 的 情况 值 大 于 6 时 ， 第 3 行 和 第 4 行 会 导致 程序 跳 转 到 默认 情况 。 这 就 意味 着 最 大 情况 标 
号 为 一 2+6=4。 


3. 在 跳 转 表 中 ， 我 们 看 到 第 3 行 的 表 项 (情况 值 一 1) 目的 〈.L2) 与 第 4 行 的 跳 转 指令 目的 一 样 ， 表 
明 这 是 默认 的 情况 行为 。 因 此 ， 在 switch 语句 体 中 忽 失 了 情况 标号 一 1。 

4. 在 跳 转 表 中 ， 我 们 看 到 第 6 行 和 第 7 行 的 表 项 有 相同 的 目的 。 这 对 应 于 情况 标号 2 和 3。 

从 上 述 推 理 ， 我 们 得 出 下 面 两 个 结论 : 

A. switch 语 名 体 中 的 情况 标号 值 为 -2、0、1、2、3 和 4。 

B. 目标 为 .L6 的 情况 标号 为 2 和 3。 
练习 题 3.29 逆向 工程 编译 出 switch 语句 ， 关 键 是 将 来 自 汇编 代码 和 跳 转 表 的 信息 结合 起 来 ， 理 清 不 同 
的 情况 。 从 ja 指令 (第 3 行 ) 得 知 ， 默 认 情 况 的 代码 标号 是 .L2。 我 们 可 以 看 到 ， 跳 转 表 中 只 有 另 一 个 标 
号 重复 出 现 ， 就 是 .L4， 因 此 它 一 定 是 情况 C 和 DD 的 代码 。 代 码 在 第 14 行 落 入 下 面 的 情况 ， 因 而 标号 .L6 
符合 情况 A， 标 号 .L3 符合 情况 B， 只 剩 下 标号 .L2， 符 合 情 况 EE。 

原始 的 C 代码 如 下 。 观 察 编译 器 如 何 优化 a 等 于 4 的 情况 ， 它 把 返回 值 设置 为 4 而 不 是 a。 


int Switcher(int a, int b, int c) 


1 
2 

3 int answer; 

4 switch(a) +{ 

6 case 5: 

7 c=b"°* 15; 

8 /* Fall through */ 

9 case 0: 

10 answer = c + 112; 

11 breakx ; 

12 case 2: 

13 case 7: 

14 answer = (c + b) << 2; 
15 break ; 

16 case 4: 

17 answer = a; /* equivalently, answer = 4 +*/ 
18 breakr ; 

19 default: 

20 answer = b; 

21 } 

22 : return answer; 

23 3} 


练习 题 3.30 ”这 又 是 一 个 汇编 代码 习惯 用 法 的 例子 。 刚 开始 ， 它 看 起 来 非常 奇怪 一 一 call 指令 没有 与 之 
匹配 的 ret。 然 后 我 们 意识 到 它 根 本 就 不 是 一 个 真正 的 过 程 调用 。 
A. $eax 被 设置 成 popl 指令 的 地 址 。 
B. 这 不 是 一 个 真正 的 过 程 调用 ， 因 为 控制 是 按照 与 指令 相同 的 顺序 进行 的 ， 而 返回 值 是 从 栈 中 弹出 的 。 
C. 这 是 IA32 中 将 程序 计数 器 的 值 放 到 整数 寄存 器 中 的 唯一 方法 。 
练习 题 3.31 ”这 个 练习 是 对 寄存 器 使 用 规则 的 具体 化 讨论 。 寄 存 器 sedi、sesi 和 %ebx 是 被 调用 者 保存 
的 。 改 变 它们 的 值 之 前 ， 过 程 必须 将 它们 保存 在 栈 中 ， 在 返回 之 前 ， 要 恢复 它们 。 其 他 三 个 寄存 器 是 调用 
者 保存 的 ， 改 变 它们 不 会 影响 调用 者 的 行为 。 
练习 题 3.32 熟悉 参数 在 栈 上 的 传递 方式 是 学 习 阅 读 IA32 代码 的 一 步 。 解 答 这 道 题 的 关键 在 于 ， 注 意 到 
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将 a 存放 在 Pp 处 是 由 汇编 代码 第 3 行 上 的 指令 实现 的 ， 由 此 你 可 以 反 着 推导 出 参数 d 和 pp 的 类 型 和 位 置 。 
类 似 地 ， 减 法 是 在 第 6 行 完成 的 ， 由 此 你 可 以 反 着 推导 出 参数 x 和 c 的 类 型 和 位 置 。 
下 面 是 函数 原型 : 


int fun(short c, char d, int *p, int X) ; 


这 个 例子 表明 ， 逆 向 工程 就 像 解 决 难题 。 确 认 只 有 唯一 选择 的 地 方 是 很 重要 的 ， 然 后 从 这 些 Cn 
填 出 余下 的 细节 。 

练习 题 3.33 ”能 够 推断 函数 如 何 使 用 栈 ， 是 理解 编译 器 产生 的 代码 的 关键 一 部 分 。 正 如 这 个 例子 说 明 的 那 
样 ， 编 译 器 分 配 了 大 量 根本 不 会 使 用 的 空间 。 

A. 开始 时 ，sesp 的 值 为 0x800040。 第 2 行 的 pushl 将 栈 指针 减 去 4， 得 到 0x80003C， 这 就 成 为 
了 %ebp 的 新 值 。 

B. 第 4 行将 栈 指针 加 了 40〔〈 十 六 进 制 0x28)， 得 到 0x800014。 

C. 我 们 可 以 看 到 两 个 leal 指令 (第 5 行 和 第 7 行 ) 是 如 何 计 算 要 传 给 scanf 的 参数 的 ， 而 两 个 
mov1l 指令 (第 6 行 和 第 8 行 ) 把 它们 存放 在 栈 上 。 因 为 函数 参数 出 现在 栈 上 的 位 置 是 相对 于 sesp 依次 增 
大 的 正 偏 移 量 ， 行 计 算 的 &x， 而 第 7 行 计 算 的 行 &y。 这 些 值 分 别 是 0x800038 
和 0x800034。 

D. 栈 帧 的 结构 和 内 容 如 下 : 


Ox80003C 
0x800038 


ox800034| Ox46|y 


0x800030 


0x800060 | <—— yebp 






Ox800020 
Ox80001C 
0x800018 
0x800014 





Ox800038 


Ox800034 
0x300070 





<— /esp 





E. 0x800020 ~ 0x800033 的 字 节 地 址 没有 使 用 。 
练习 题 3.34 这 道 题 给 了 一 个 练习 检查 递归 函数 代码 的 机 会 。 要 学 的 一 个 很 重要 的 内 容 就 是 ， 递 归 代 码 与 
我 们 看 到 的 其 他 函数 的 结构 一 模 一 样 。 栈 和 寄存 器 保存 规则 足以 让 递归 函数 正确 执行 。 

A. 寄存 器 sebx 保存 参数 x 的 值 ， 所 以 它 可 以 被 用 来 计算 结果 表达 式 。 

B. 汇编 代码 是 由 下 面 的 C 代码 产生 而 来 的 : 


int rfun(unsigned x) { 
if (x == 0) 
return 0 
unsigned nx = x>>1, 
int rv = rfun(nx); 
return (x & Ox1) + rv; 


} 


C. 同 练习 题 3.49 中 的 代码 一 样 ， 这 个 函数 计算 参数 x 中 位 的 和 。 它 递归 的 计算 除了 最 低位 之 外 的 所 
有 其 他 位 的 和 ， 然 后 再 加 上 最 低位 得 到 结果 。 
练习 题 3.35 这 个 练习 测试 你 对 数据 大 小 和 数组 索引 的 理解 。 注 意 ， 任 何 类 型 的 指针 都 是 4 个 字 节 长 。 对 
于 IA32 来 说 ，GCC 为 数据 类 型 long double 分 配 12 个 字 节 ， 即 使 实际 格式 只 需要 10 个 字 节 。 


S 
和 
U 
V 
W 


练习 题 3.36 这 个 练习 是 关于 整数 数组 E 的 一 个 变形 。 理解 指针 与 指针 指向 的 对 象 之 间 的 区 别 是 
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: 
很 重要 
前 面 我 们 用 的 是 mov1， 


的 。 因 为 数据 类 型 short 需要 2 个 字 节 ， 所 以 所 有 的 数组 索引 都 将 乘 以 因子 2。 
现在 用 的 则 是 movw。 


St+1 
S[3] 


&S [i] 
S [4*i+1] 
S+i-5 


Short * 
short 
short * 
short 
short * 


汇编 语句 
leal 2(%edx) ,Xeax 
movw 6(%edx) ,%ax 
leal (%edx,%ecx,2) ,%eax 
movw 2(hedx ,hecx,8) ,%ax 
leal -10(%edx,%ecx,2) ,%eax 


Xs 十 2 

MLxs 十 0] 

Xs 十 2 
Milxs 十 & 十 2] 
xs 十 2 一 10 





练习 题 3.37 这 个 练习 要 求 你 完成 缩放 操作 ， 来 确定 地 址 的 计算 ， 并 且 应 用 行 优先 索引 的 公式 (3-1)。 第 
一 步 是 注释 汇编 代码 ， 来 确定 如 何 计算 地 址 引用 : 


movl 
movl 
leal 
subl 
addl 
leal 
addl 
movl 
addl 


oO NO 人 一 . 


‘SC 


8(%ebp) , %ecx 
12(%ebp) , %edx 
0(,%ecx,8), %eax 
hecx, heax 
hedx, heax 
(%edx ,%edx ,4) ， 
hecxXx，yYedx 
mat1(,%eax,4), 
mat2(,%hedx ,4), 


Yedx 


%eax 
Weax 


Get i 

Get J 

人 

如 本 二 7 二 
7 

| 

Br I+ 
mat1[?7*i+j] 


mat2{5*j+i) 


我 们 可 以 看 出 ， 对 矩阵 matl 的 引用 是 在 字 节 偏 移 4(7i+j) 的 地 方 ， 而 对 矩阵 mat2 的 引用 是 在 字 


节 偏 移 4(5j+i) 的 地 方 。 由 此 可 以 确定 matl 有 7 列 ， 


而 mat2 有 5 列 ， 得 到 M=5 和 N=7。 


练习 题 3.38 这 个 练习 要 求 你 研究 编译 产生 的 汇编 代码 ， 了 解 执行 了 哪些 优化 。 在 这 个 情况 中 ， 编 译 器 做 


一 些 聪明 的 优化 。 


让 我 们 先 来 研究 一 下 C 代码 ， 然 后 看 看 如 何 从 为 原始 函数 产生 的 汇编 代码 推导 出 这 个 C 代码 。 


1 /+ Set all diagonal elements to val +*/ 

2 void fix_set_diag_opt(fix_matrix A, int Wo { 
; int *Abase = &A[O] [0]; 

4 int index = 0; 

5 do { 

6 Abase[index] = val; 

7 index += (N+1); 

8 } while (index != (N+1)*N); 


9 小 


”这 个 函数 引入 了 一 个 变量 Abase，int* 类 型 的 ， 指 向 数组 A 的 起 始 位 置 。 这 个 指针 指向 一 个 4 字 节 


整数 序列 ， 这 个 序列 由 按照 行 优先 顺 序 存放 的 A 的 元 素 组 成 。 我 们 引入 一 个 整数 变量 index， 它 一 


步 一 步 


经 过 A 的 对 角 线 ， 它 有 一 个 属性 ， 那 就 是 对 角 线 元 素 i 和 itl 在 序列 中 相隔 N+1 个 元 素 ， 而 且 一 旦 我 们 到 
达 对 角 线 元 素 NW (索引 为 MN+1))， 我 们 就 超出 了 边界 。 
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实际 的 汇编 代码 遵循 这 样 的 通用 格式 ， 但 是 现在 指针 的 增加 必须 乘 以 因子 4。 我 们 将 寄存 器 seax 标 
记 为 存放 值 index4， 等 于 C 版 本 中 的 index， 但 是 使 用 因子 4 进行 的 伸缩 。 对 于 N=16， 我 们 可 以 看 到 
index4 的 停止 点 会 是 4X16X(16+1)=1088。 


A at hebp+8, val at %ebp+12 


1 movl 8(%ebp), hecx Get Abase = &ALO] [0} 

2 movl 12(%ebp), hedx Get val 

3 movl $0, heax Set index4 to 0 

4 .L1i4: loop: 

5 movl Wedx, (Xecx,%heax) Set Abase[index4/4] to val 
6 addl $68, Wheax index4 += 4(N+1) 

7 cmpl $1088, %eax Compare index4:4N(N+1) 

8 jne .上 14 If !=, goto 1oop 


练习 题 3.39 这 个 练习 让 你 思考 结构 的 布局 ， 以 及 用 来 访问 结构 字段 的 代码 。 该 结构 声明 是 书 中 所 示例 子 
的 一 个 变形 。 它 表明 吝 套 结构 的 分 配 是 将 内 层 结 构 媒 入 到 外 层 结 构 之 中 。 : 
A. 结构 的 布局 图 是 这 样 的 : 


偏 移 0 4 8 12 16 


ms | sr | sy | wo) 


B. 它 使 用 了 16 个 字 节 。 | 
C. 我 们 依旧 从 给 汇编 代码 加 注释 开始 : 


sp at hebp+8 


1 movl 8(%ebp), Weax Get sp 

2 movl 8(%eax) , %edx Get sp->s.y 

3 movl Wedx, 4(%eax) Store in sp~>s.x 

4 leal 4(%eax) , hedx Compute &(sp~>s.x) 

5 moVJ] %edx, (%eax) Store in sp->p 

6 movl Weax, 1i2(%eax) Store sp in sp->next 


由 此 可 以 产生 如 下 C 代码 : 


void sp_init(struct Prob *sp) 


{ 
sp->s.x = sp->s.y; 
sp->p = &(sp->s.x); 
SP->Dext = sp; 

} 


练习 题 3.40 ”结构 和 联合 涉及 的 概念 很 简单 ， 但 是 需要 练习 才能 习惯 不 同 的 引用 模式 和 它们 的 实现 。 


Up->t1.S i movl1 4(heax), heax 
movl1 Weax, (%edx) 


Up->t1.V movw (%eax), hax 
movw %ax, (Xedx) 


gup->t1i.d 。 short* leal 2(%eax), Weax 
movl Weax, (%edx) 
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( 续 ) 


up->t2.a mov]1 heax, (%edx) 


up->t2.a[up->t1.s] i movl 4(W%eax) , hecx 
mov] (%eax;%ecx,4), %eax 


movl Weax, (Xedx) 


*Up-—>t2.p z movl 8(%heax) , heax 
movb (Weax), %al 
movb %al, (%edx) 





练习 题 3.41 想 理解 各 种 数据 结构 需要 多 少 存储 ， 以 及 编译 器 为 访问 这 些 结构 产生 的 代码 ， 理 解 结 构 的 布 
局 和 对 齐 是 非常 重要 的 。 这 个 练习 让 你 看 清楚 一 些 示例 结构 的 细节 ， 


A. struct Pl { int i; char cj int j; char d; };. - 


i cj ad 总 共 对 齐 
0 4 8 12 16 4 


B. struct P2 { int i; char c; char d; int j; }; 


ic j d 总 共 对 齐 
045 8 12 4 


C. struct P3 { short w[3] ; char c[3] }:; 


Ww Cc 总 共 对 齐 
0 6 10 2 


D. struct P4 { short w[3]; char *c[3] }:; 


w Cc 总 共 对 齐 
0 8 20 4 


E. struct P3 { struct P1 a[2] ; struct P2 *p }, 
a P 总 共 对 齐 z 
0 32 36 4 
练习 题 3.42 这 是 个 理解 结构 的 布局 和 对 齐 的 练习 。 
A. 这 里 是 对 象 大 小 和 字 节 偏 移 量 : 





B. 这 个 结构 一 共 是 48 个 字 节 长 。 结 构 的 结尾 必须 填充 4 个 字 节 来 满足 8 字 节 对 齐 的 要 求 。 
C. 当 所 有 数据 元 素 的 长 度 都 是 2 的 霸 时 ， 一 种 行 之 有 效 的 策略 是 按照 大 小 的 降序 排列 结构 的 元 素 。 导 


致 声明 如 下 : 
struct +{ 
double 3 
long long g; 
float e; 
char *a.; 


void *h; 
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short b; 

char d; 

char 上 
} foo; 


偏 移 量 如 下 ， 总 共 是 32 个 字 书 : 





练习 题 3.43 ”这 个 问题 覆盖 的 问题 比较 广泛 ， 例 如 栈 帧 、 字 符 串 表示 、ASCI 码 和 字 节 顺序 。 它 说 明了 越 
界 的 存储 器 引用 的 危险 性 ， 以 及 缓冲 区 溢出 背后 的 基本 思想 。 
A. 第 7 行 后 的 栈 : 








08 04 86 43 | 1i 


00 00 00 03 
00 00 00 02 
00 00 00 01 


sebPp 一 





保存 的 $esi 
保存 的 %ebx 
but [4-7] 


B. 第 10 行 后 的 栈 : 


sebp —> 保存 的 sebp 
保存 的 Sedi 


保存 的 sebx 
37 36 35 34| but 4-7] 
but [0-3] 





C. 这 个 程序 试图 返回 到 地 址 0x08048600。 低 位 字 节 被 结尾 的 空 (nul1l) 字符 覆盖 了 。 
D. 下 列 寄 存 器 的 保存 值 被 改变 了 : 


33323130 


39383736 
35343332 
31303938 





在 getline 返回 之 前 ， 这 些 值 将 被 加 载 到 寄存 器 中 。 
E. 对 malloc 的 调用 应 该 以 strlen (buf)+1 作 为 它 的 参数 ， 而 且 代 码 还 应 该 检查 返回 值 是 否 为 
NULL。 
练习 题 3.44 
A. 这 对 应 于 大 约 2 个 地 址 的 范围 。 
B. 每 次 尝试 ， 一 个 128 字 节 的 空 操作 sled 会 覆盖 2 个 地 址 ， 因 此 我 们 只 需要 2=64 次 尝试 。 
这 个 代码 明确 地 表明 了 这 个 版 本 的 Linux 中 的 随机 化 程度 只 能 很 小 地 阻挡 溢出 攻击 。 
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练习 题 3.45 ”这 道 题 让 你 看 看 IA32 代码 如 何 管理 栈 ， 也 让 你 更 好 地 理解 如 何 防卫 缓冲 区 溢出 攻击 。 

_ A. 对 于 没有 保护 的 代码 ， 第 4 行 和 第 6 行 计算 v 和 buf 的 地 址 在 相对 于 sebp 偏 移 量 为 -8 和 -20。 
在 有 保护 的 代码 中 ， 金 丝 省 被 存放 在 偏 移 量 为 -8 的 地 方 〈 第 3 行 )， 而 v 和 buf 在 偏 移 量 为 -24 和 一 20 
的 地 方 〈 第 7 行 和 第 9 行 )。 

B. 在 有 保护 的 代码 中 ， 局 部 变量 v 比 buf 更 靠近 栈 顶 ， 因 此 buf 溢出 就 不 会 破坏 Vv 的 值 。 实 际 上 ， 
这 样 放 置 buf 目的 是 一 旦 有 缓冲 区 溢出 ， 就 会 破坏 金 丝 省 的 值 。 
练习 题 3.46 ”在 过 去 30 年 间 ， 每 10 年 价格 就 下 降 51 倍 ， 能 做 到 这 一 点 是 非常 了 不 起 的 ， 它 帮助 解释 了 
为 什么 在 我 们 的 社会 里 计算 机 变 得 如 此 普遍 。 

A. 假设 2010 年 的 16.3GB 是 基准 线 ，256TB 表示 增加 了 1.608X104 倍 ， 需 要 大 约 25 年 ， 也 就 是 到 
2035 年 。 

B. 16EB 比 起 16.3GB 是 增加 了 1.054X10? 倍 。 这 需要 大 约 53 年 ， 也 就 是 到 2063 年 。 

C. 将 预算 增加 10 倍 ， 会 比 预期 缩短 6 年 ， 使 得 分 别 可 以 在 2029 年 和 2057 年 达到 两 个 存储 器 大 小 的 
目标 。 
当然 ， 对 这 些 数字 不 必要 求 太 严格 。 这 需要 大 幅度 提高 存储 器 技术 ， 超 越 我 们 所 相信 的 目前 技术 的 基 
本 物理 限制 。 然 而 ， 它 表明 在 本 书 许多 读者 的 有 生 之 年 ， 会 有 EB 量 级 的 存储 器 系统 。 
练习 题 3.47 这 道 题 说 明了 类 型 转换 和 和 不同 传送 指令 的 一 些 细微 之 处 。 在 有 些 情况 中 ， 我 们 利用 了 一 个 属 
性 , . 即 mov1l 指令 会 将 目标 寄存 器 的 高 32 位 设置 为 0。 有 些 题 目 有 多 个 解 。 


long movg 

long movslq 符号 扩展 

long movsbq i 7 符号 扩展 
unsigned int unsigned long | movl %edi % 零 扩 展 到 64 位 


unsigned char unsigned long movzbqg wdi 7 零 扩 展 到 64 位 


unsigned char unsigned loneg movzbl %di hea 零 扩 展 到 64 位 
long int movslq Xedi % | 符号 扩展 到 64 位 
long int movl hedi 7 零 扩 展 到 64 位 
unsigned long | unsigned movl %edi % 零 扩 展 到 64 位 





我 们 说 明了 long 到 int 的 转换 既 可 以 使 用 movslq 也 可 以 使 用 mov1， 虽 然 一 个 是 符号 扩展 高 32 
位 ， 而 另 一 个 是 做 0 扩展 。 因 为 对 于 后 续 以 seax 作为 操作 数 的 指令 都 会 忽略 高 32 位 的 值 。 
练习 题 3.48 我 们 可 以 一 步 一 步 地 查看 arithprob 的 代码 ， 得 到 下 面 的 内 容 : 

1. 在 乘 以 c 之前， 第 一 个 movslqg 指令 将 d 符 号 扩展 到 一 个 长 整数 。 这 表明 ad 的 类 型 为 int, 而 c 
的 类 型 为 long。 

2. 在 乘 以 a 之 前 ，movsbl 指令 (第 4 行 ) 将 b 符 号 扩展 到 一 个 整数 。 这 表明 b 的 类 型 为 char， 而 
a 的 类 型 为 int。 

3. 和 是 用 leal 指令 计算 的 ， 表 明 返 回 值 的 类 型 是 1ong。 

据 此 ， 我 们 可 以 确定 函数 arithprob 的 唯一 原型 是 : 


long arithprob(int a, char b, long c, int d); 


练习 题 3.49 ”这 道 题 说 明了 计算 一 个 字 中 1 的 位 数 的 很 聪明 的 方法 。 它 采用 了 几 个 在 汇编 代码 级 别 上 和 看 起 
来 很 隐 星 的 技巧 。 
A. 这 里 是 原始 的 C 代码 : 


long fun_c(unsigned long x) I 
long val = 0; 
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int i; 

for (i = 0; i < 8; i++) { 
val += x & Ox0101010101010101L; 
X >>= 1; 


val += (val >> 32) ; 
val += (val >> 16); 
val += (val >> 8) ; 
return val & OXFF ; 


} 

B. 这 个 代码 通过 并 行 地 计算 8 个 单字 节 的 和 来 对 x 中 的 位 求 和 ， 使 用 了 val 的 所 有 8 个 字 节 。 然 后 
对 val 的 两 半 求 和 ， 然 后 是 两 个 低位 的 16 位 ， 最 后 是 这 个 和 的 2 个 低位 字 节 ， 得 到 的 最 终 数 量 在 低位 字 
节 中 。 为 了 得 到 最 后 的 结果 ， 会 屏蔽 看 高 位 。 这 种 方法 的 好 处 是 只 需要 8 次 循环 ， 而 不 是 一 般 的 64 次 。 
练习 题 3.50 ”我 们 可 以 一 步 一 步 地 查看 incrprob 的 代码 ， 得 到 下 面 的 内 容 : 

1. add1 指令 从 第 三 个 参数 寄存 器 给 出 的 位 置 处 取出 一 个 32 位 整数 ， 把 它 加 到 第 一 个 参数 寄存 器 的 32 
位 版 本 上 。 据 此 ， 我 们 可 以 推断 出 七 是 第 三 个 参数 ， 而 x 是 第 一 个 参数 。 可 以 看 到 ，t 一 定 是 一 个 指向 有 
符号 或 者 无 符号 整数 的 指针 ， 但 是 x 可 以 是 有 符号 的 也 可 以 是 无 符号 的 ， 它 可 以 是 32 位 的 也 可 以 是 64 位 
的 《因为 当 它 加 上 *t 时 ， 代 码 会 把 它 截断 到 32 位 )。 

2. movslq 指令 将 和 (*t 的 一 个 副本 ) 符号 扩展 到 长 整数 。 据 此 ， 我 们 可 以 推断 出 七 必然 是 一 个 指向 
有 符号 整数 的 指针 。 

3. addq 指令 将 前 面 的 和 的 符号 扩展 值 加 到 第 二 个 参数 寄存 器 指出 的 位 置 上 。 据 此 ， 我 们 可 以 推断 出 a 
是 第 二 个 参数 ， 它 是 一 个 指向 长 整数 的 指针 。 

对 于 incrprob 有 四 个 合法 的 原型 ， 取 决 于 x 是 否 是 长 型 ， 以 及 它 是 有 符号 的 还 是 无 符号 的 。 我 们 给 
出 了 这 4 种 不 同 的 原型 : 


void incrprob_s(int x, long *q, int *t); 

void incrprob_u(unsigned x, long *q, int *t); 

void incrprob_sl(long x, long *q, int *t); 

void incrprob_ul (unsigned long x, long *q, int *t); 


练习 题 3.51 这 个 函数 是 一 个 需要 本 地 存储 的 叶子 函数 示例 。 它 可 以 使 用 栈 指针 之 外 的 空间 作为 它 的 局 部 
存储 ， 而 不 需要 修改 模 指 针 。 
A. 使 用 了 的 栈 位 置 ; 





栈 指针 

ssp 一 一 ”0 
8 : 
-16 
-24 
- 32 
- 40 

B. X86-64 implementation of local_array 


Argument i in edi 

] local_array: 

2 movqd $2,， -40(%rsp) Store 2 in afo0] 

3 movqd $3,， -32(%rsp) Store 3 in at] 

4 movqg $5, -24(%rsp) Store 5 in a[2] 

$ movg $7, -16(%rsp) Store 7 in a[3] 

6 andl $3, Wedi Compute idx = 1&3 

7 movqg -40(%rsp,%rdi,8), %rax Compute a[idx] as return vailue 
8 ret . Return 
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C. 这 个 函数 从 来 不 会 改变 栈 指针 。 它 将 它 的 所 有 局 部 变量 都 存放 在 栈 指针 外 的 区 域 中 。 
练习 题 3.52 

A. 寄存 器 S$rbx 用 来 保存 参数 x。 

B. 由 于 %rbx 是 被 调用 者 保存 的 ， 它 必须 存在 栈 上 。 由 于 这 是 这 个 函数 唯一 需要 使 用 栈 的 地 方 ， 所 以 
代码 用 压 入 和 弹出 指令 来 保存 和 恢复 该 寄存 器 。 


人 XS6-64 impiementation of recursive factorial function rfact 


Arguihent: x in Krai 


| rfact: 

2 pushq  ‘%rbx Save %rbx (callee save) 
3 movg %rdi, %rbx Copy x to %rbx 

4 movl $1, heax result = 1 

5 testq  %rdi, %rdi Test x 

6 jle .L11 If <=0, goto done 

7 leaq -1(%rdi), %rdi Compute xmi = x 

8 call rfact Call rfact (xmi) 

9 imulq  %rbx, hrax Compute result = x*rfact (xml) 
10 ‘L111: done: 
11 popq hrbx ”Restore %rbx 
12 ret Return 


D. 不 显 式 地 减少 或 者 增加 栈 指 针 ， 相 反 ， 代 码 可 以 用 pushq 和 popq 来 修改 栈 指针 以 及 保存 和 恢复 
练习 题 3.53 
这 道 题 类 似 于 练习 题 3.41， 不 过 为 了 x86-64 升级 。 


A. struct Pl { int i; char c; long j; char d; }; 


ic j d 总 数 对 齐 
0 4 8 16 24 8 


B. struct P2 {long i; char c; char d; int j; }; 


i c d j 总 数 对 齐 
0 8 9 12 16 8 


C. struct P3 { short w[3]; char c[3] }; 
w Cc 总 数 对 齐 
0 6 10 2 
D. struct P4 { short w[3]; char *c[3] }; 
Ww Cc 总 数 对 齐 
0 8 32 8 
E. struct P3 { struct Pl a[2] ; struct P2 *p }; 


a Pp 总 数 对 齐 
0 48 56 8 
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处 理 器 体系 结构 


现代 微 处 理 器 可 以 称 得 上 是 人 类 创造 的 最 复杂 的 系统 之 一 。 一 块 手指 甲 大 小 的 硅 片 上 ， 可 以 
容纳 一 个 完整 的 高 性 能 处 理 器 、 大 的 高 速 缓存 ， 以 及 用 来 连接 到 外 部 设备 的 逻辑 电路 。 从 性 能 上 
来 说 ， 今 天 在 一 块 芯片 上 实现 的 处 理 器 ， 已 经 使 20 年 前 价值 1000 万 美元 、 房 间 那 么 大 的 超级 计 
算 机 相形 见 绸 了 。 即 使 是 在 手机 、 个 人 数字 助理 (PDA) 和 掌上 游戏 机 这 样 的 日 常设 备 中 的 伟人 
式 处 理 器 ， 也 比 早 期 计算 机 开发 者 所 能 想到 的 强大 得 多 。 

到 目前 为 止 ， 我 们 看 到 的 计算 机 系统 只 限于 机 器 语言 程序 级 。 我 们 知道 处 理 器 必须 执行 一 
系列 指令 ， 每 条 指令 执行 某 个 简单 操作 ， 例 如 两 个 数 相 加 。 指 令 被 编码 为 由 一 个 或 多 个 字 节 
序列 组 成 的 二 进 制 格 式 。 一 个 处 理 器 支持 的 指令 和 指令 的 字 节 级 编码 称 为 它 的 指令 集体 系 结 
构 (Instmction-Set Architecture，ISA)。 不 同 的 处 理 器 “家 族 ” 例如 Intel IA32、IBM/Freescale 
PowerPC 和 ARM 处 理 器 家 族 ， 都 有 不 同 的 ISA。 一 个 程序 编译 成 在 一 种 机 器 上 运行 ， 就 不 能 在 
另 一 种 机 器 上 运行 。 另 外 ， 同 一 个 家 族 里 也 有 很 多 不 同型 号 的 处 理 器 。 虽 然 每 个 厂商 制造 的 处 理 
器 性 能 和 复杂 性 不 断 提 高 ， 但 是 不 同 的 型 号 在 ISA 级 别 上 都 保持 着 兼容 。 一 些 常见 的 处 理 器 家 
族 〈 例 如 IA32) 中 的 处 理 器 分 别 由 多 个 厂商 提供 。 因 此 ，ISA 在 编译 器 编写 者 和 处 理 器 设计 人 
员 之 间 提 供 了 一 个 概念 抽象 层 ， 编 译 器 编写 者 只 需要 知道 允许 哪些 指令 ， 以 及 它们 是 如 何 编码 
的 ; 而 处 理 器 设计 者 必须 建造 出 执行 这 些 指令 的 处 理 器 。 

本 章 将 简要 介绍 处 理 器 硬件 的 设计 。 我 们 将 研究 一 个 硬件 系统 执行 某 种 ISA 指令 的 方式 。 
这 会 使 你 更 好 地 理解 计算 机 是 如 何 工作 的 ， 以 及 计算 机 制造 商 们 面临 的 技术 挑战 。 一 个 很 重要 的 
概念 是 ， 现 代 处 理 器 的 实际 工作 方式 可 能 跟 ISA 隐 含 的 计算 模型 大 相 径 庭 。ISA 模型 看 上 去 应 该 
是 顺序 指令 执行 ， 也 就 是 先 取出 一 条 指令 ， 等 到 它 执行 完 毕 ， 再 开始 下 一 条 。 然 而 ， 与 一 个 时 刻 
只 执行 一 条 指令 相 比 ， 通 过 同时 处 理 多 条 指令 的 不 同 部 分 ， 处 理 器 可 以 获得 较 高 的 性 能 。 为 了 保 
证 处 理 器 能 达到 同 顺序 执行 相同 的 结果 ， 人 们 采用 了 一 些 特殊 的 机 制 。 在 计算 机 科学 中 ， 用 巧妙 
的 方法 在 提高 性 能 的 同时 ， 又 保持 一 个 更 简单 、 更 抽象 模型 的 功能 ， 这 种 思想 是 众所周知 的 。 在 
Web 浏览 器 或 平衡 二 又 树 和 哈 希 表 这 样 的 信息 检索 数据 结构 中 使 用 缓存 ， 就 是 这 样 的 例子 。 

你 很 可 能 永远 都 不 会 自己 设计 处 理 器 。 这 是 专家 们 的 任务 ， 他 们 工作 在 全 球 不 到 100 家 的 公 
司 里 。 那 么 为 什么 你 还 应 该 了 解 处 理 器 设计 呢 ? 

. 从 叔 力 方面 来 说 ， 处 理 器 设计 是 非常 有 趣 而 且 很 重要 的 。 学 习 事物 是 怎样 工作 的 有 其 内 在 

价值 。 了 解 作 为 计算 机 科学 家 和 工程 师 日 常生 活 一 部 分 的 一 个 系统 的 内 部 工作 原理 ， 对 很 

多 人 来 说 这 还 是 个 谜 ， 是 件 格 外 有 趣 的 事情 。 处 理 器 设计 包括 许多 好 的 工程 实践 原理 。 它 

需要 完成 复杂 的 任务 ， 而 结构 又 要 尽 可 能 简单 和 规则 。 

。 理 解 处 理 器 如 何 工作 能 帮助 理解 整个 计算 机 系统 如 何 工作 。 在 第 6 章 ， 我 们 将 讲述 存储 器 

系统 ， 以 及 用 来 创建 很 大 的 存储 器 映像 同时 又 有 快速 访问 时 间 的 技术 。 参 考 处 理 器 端的 处 

理 器 一 一 存储 器 接口 ， 会 使 那些 讲述 更 加 完整 。 

。 虽 然 很 少 有 人 设计 处 理 吕 ， 但 是 许多 人 设计 包 钨 处理 器 的 硬件 系统 。 将 处 理 器 通 入 到 现实 

世界 的 系统 中 ， 如 汽车 和 家 用 电器 ， 已 经 变 得 非常 普通 了 。 肉 入 式 系 统 的 设计 者 必须 了 解 

处 理 器 是 如 何 工作 的 ， 因 为 这 些 系 统 通常 是 在 比 桌面 系统 更 低 抽象 级 别 上 进行 设计 和 编程 。 

。 你 的 工作 可 能 就 是 处 理 器 设计 。 虽 然 生 产 处 理 器 的 公司 很 少 ， 但 是 研究 处 理 器 的 设计 人 员 队 伍 

已 经 非常 巨大 了 ， 而 且 还 在 增 大 。 一 个 主要 的 处 理 器 设计 的 各 个 方面 大 约 涉及 1000 多 人 。 
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本 章 首先 要 定义 一 个 简单 的 指令 集 ， 作 为 我 们 处 理 器 实现 的 运行 示例 。 因 为 受到 IA32 指令 
集 的 启发 ， 它 被 俗称 为 “x86”， 所 以 我 们 称 我 们 的 指令 集 为 “Y86” 指 令 集 . 与 了 A32 相 比 ，Y86 
指令 集 的 数据 类 型 、 指 令 和 寻 址 方式 都 要 少 一些 。 它 的 字 节 级 编码 也 比较 简单 。 不 过 , 它 仍 然 足 
够 完整 ， 能 让 我 们 写 一 些 简 单 的 处 理 整 数 的 程序 。 设 计 一 个 实现 Y86 的 处 理 器 要 求 我 们 面 对 许 
多 处 理 器 设计 者 同样 会 面 对 的 问题 。 : : 

接 下 来 会 提供 一 些 数字 硬件 设计 的 背景 。 我 们 会 描述 处 理 器 中 使 用 的 基本 构件 块 ， 以 及 它们 
如 何 连接 起 来 和 操作 。 这 些 介 绍 是 建立 在 第 2 章 对 布尔 代数 和 位 级 操作 的 讨论 的 基础 上 的 。 我 们 
还 将 介绍 一 种 描述 硬件 系统 控制 部 分 的 简单 语言 ，HCL (Hardware Control Language， 硬 件 控制 
语言 )。 然 后 ， 用 它 来 描述 我 们 的 处 理 器 设计 。 即 使 你 已 经 有 了 一 些 逻 辑 设 计 的 背景 知识 ， 也 应 
该 读 读 这 个 部 分 以 了 解 我 们 的 特殊 符号 。 

作为 设计 处 理 器 的 第 一 步 ， 我 们 给 出 一 个 基于 顺序 操作 、 功 能 正确 但 是 有 点 不 实用 的 Y86 
处 理 器 。 这 个 处 理 器 每 个 时 钟 周期 执行 一 条 完整 的 Y86 指令 。 所 以 它 的 时 钟 必须 足够 慢 ， 以 允 
许 在 一 个 周期 内 完成 所 有 的 动作 。 这 样 一 个 处 理 器 是 可 以 实现 的 ， 但 是 它 的 性 能 远 远 低 于 同样 的 
a : : z 

个 顺序 设计 为 基础 ， 我 们 进行 一 系列 的 改造 ， 创 建 一 个 流水 线 化 的 处 理 器 (pipelined 

es 
(stage) 来 处 理 。 指 令 步 经 流水 线 的 各 个 阶段 ， 且 每 个 时 钟 周期 有 一 条 新 指令 进入 流水 线 。 所 
以 ， 处 理 器 可 以 同时 执行 五 条 指令 的 不 同 阶段 。 为 了 使 这 个 处 理 器 保留 Y86 ISA 的 顺序 的 性 质 ， 
就 要 求 处 理 很 多 冒险 或 冲突 (hazard) 情况 ， 冒 险 就 是 一 条 指令 的 位 置 或 操作 数 依赖 于 其 他 仍 在 
流水 线 中 的 指令 。 

我 们 设计 了 一 些 工具 来 研究 和 测试 处 理 器 设计 。 其 中 包括 Y86 的 汇编 器 、 在 你 的 机 器 上 运 
行 Y86 程序 的 模拟 器 ， 还 有 针对 两 个 顺序 处 理 器 设计 和 一 个 流水 线 化 处 理 器 设计 的 模拟 器 。 这 
些 设计 的 控制 逻辑 在 用 HCL 符号 表示 的 文件 中 描述 。 通 过 编辑 这 些 文件 和 重新 编译 模拟 器 ， 你 
可 以 改变 和 扩展 模拟 行为 。 我 们 还 提供 许多 练习 ， 包 括 实现 新 的 指令 和 修改 机 器 处 理 指 令 的 方 
式 。 还 提供 测试 代码 以 帮助 你 评价 修改 的 正确 性 。 这 些 练习 将 极 大 地 帮助 你 理解 所 有 这 些 内 容 ， 
也 能 使 你 更 能 理解 处 理 器 设计 者 面临 的 许多 不 同 的 设计 选择 。 

网 络 旁 注 ARCH:VLOG 给 出 了 用 Verilog 硬件 描述 语言 描述 了 流水 线 化 的 Y86 处 理 器 。 其 
中 包括 为 基本 的 硬件 构建 块 和 整个 的 处 理 器 结 移 创建 模块 。 我 们 自动 地 将 控制 软 辑 的 HCL 描述 
翻译 成 Verilog。 首 先 用 我 们 的 模拟 器 调试 HCL 描述 ， 能 消除 很 多 在 硬件 设计 中 会 出 现 的 棘手 问 
题 。 给 定 一 个 Verilog 描述 ， 有 商业 和 开源 工具 来 支持 模拟 和 这 辑 合 成 (logic synthesis)， 产 生 实 
际 的 微 处 理 器 电路 设计 。 因 此 ， 虽 然 我 们 再 次 花费 大 部 分 精力 创建 系统 的 图 形 和 文字 描述 ， 写 软 
件 的 时 候 也 会 花费 同样 的 精力 ， 人 人 
用 硬件 实现 的 系统 。 


4.1 Y86 指令 集体 系 结构 


定义 一 个 指令 集体 系 结构 ， 例 如 Y86， 包 括 定义 各 种 状态 元 素 、 指令 集 和 它们 的 编码 、 一 组 
编程 规范 和 异常 事件 处 理 。 
4.1.1 程序 员 可 见 的 状态 

如 图 4-1 所 示 ，Y86 程序 中 的 每 条 指令 都 会 读 取 或 修改 处 理 器 状态 的 某 些 部 分 。 这 称 为 程序 
员 可 见 状态 ， 这 里 的 “程序 员 ” 既 可 以 是 用 汇编 代码 写 程序 的 人 ， 也 可 以 是 产生 机 器 级 代码 的 编 
译 器 。 在 处 理 器 实现 中 ， 只 要 我 们 保证 机 器 级 程序 能 够 访问 程序 员 可 见 状态 ， 就 不 需要 完全 按照 
ISA 隐 含 的 方式 来 表示 和 组 织 这 个 处 理 器 状态 。Y86 的 处 理 器 状态 类 似 于 IA32。 有 -8 个 程序 寄 
存 器 : Seax、%Secx、%edx、%Sebx、%esi、%edi、s%esp 和 %ebp。 处 理 器 的 每 个 程序 寄存 器 
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存储 一 个 字 。 寄 存 器 $esp 被 人 栈 、 出 栈 、 调 用 和 返回 指令 作为 栈 指针 。 在 其 他 情况 中 ， 寄 存 器 
没有 固定 的 含义 或 固定 值 。 有 3 个 一 位 的 条 件 码 : ZF、SF 和 OF， 它 们 保存 最 近 的 算术 或 逻辑 指 
令 所 造成 影响 的 有 关 信 息 。 程 序 计数 器 (PC) 存放 当前 正在 执行 指令 的 地 址 。 

RF: 程序 寄存 器 Stat: 程序 状态 


[ | 


DMEM: 存储 器 





4 
lh 


图 4-1 Y86 程 序 员 可 见 状态 。 te Y86 的 程序 可 以 访问 和 修改 程序 寄存 器 、 条 件 码 、 程 序 
“计数 器 (PC) 和 存储 器 。 状 态 码 指明 程序 是 否 运行 正常 ， 或 者 发 生 了 某 个 特殊 事件 


”在 储 器 ， 从 概念 上 来 说 就 是 一 个 很 大 的 字 节 数组 ， 保 存 着 程序 和 数据 。Y86 程序 用 虚拟 地 址 
来 引用 存储 器 位 置 。 硬 件 和 操作 系统 软件 联合 起 来 将 虚拟 地 址 翻译 成 实际 或 物理 地 址 ， 指 明 数 据 
实际 保存 在 存储 器 中 哪个 地 方 。 第 9 章 将 更 详细 地 研究 虚拟 存储 器 。 现 在 ， 我 们 只 认为 虚拟 存储 
器 提供 给 Y86 程序 一 个 单一 的 字 节 数组 映像 。 

程序 状态 的 最 后 一 个 部 分 是 状态 码 Stat， 它 表明 程序 执行 的 总 体 状 态 。 它 会 指示 是 正常 运 
行 ， 还 是 出 现 了 某 种 异常 ， 例如 当 一 条 指令 试图 去 读 非法 的 存储 器 地 址 时 。 在 4.1.4 节 中 会 讲述 
可 能 的 状态 码 以 及 异常 处 理 。 

4.1.2 Y86 指令 

ee el 这 个 指令 集 就 是 我 们 处 理 器 实现 的 目标 。 
Y86 指令 集 基 本 上 是 IA32 指令 集 的 一 个 子 集 。 它 只 包括 四 字 节 整数 操作 ， 寻 址 方式 比较 少 ， 操 
作 也 较 少 。 因 为 我 们 只 有 四 字 节 数据 ， nt 在 这 个 图 
中 ， 左 边 是 指令 的 汇编 码 表示 ， 右 边 是 字 节 编码 。 汇 编 代码 格式 类 似 于 IA32 的 ATT 格式 。 
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S| | 也 
| 


PE 
日 
= = 
z| |¥ 


OP1 rA, rB 


JXX Dest 


cmovXX rrA, rB 


call Dest 
ret 


pushl [A . 


BE 
eile 
| 3 3 
加 到 





popl rA 


图 4-2 Y86 指令 集 。 指令 编码 长 度 从 1 个 字 字 忆 到 6 个 字 节 不 等 。 一 条 指令 含有 一 个 单字 节 的 指令 指示 符 ， 
可 能 含有 一 个 单字 节 的 寄存 器 指示 符 ， 还 可 能 含有 一 个 四 字 节 的 常数 字 。 字段 fn 指明 是 某 个 整数 
操作 (oP1)、 数 据 移动 条 件 (cmovXX) 或 是 分 支 条 件 (jxXx)。 所 有 的 数值 都 用 十 六 进 制 表示 
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以 下 是 不 同 Y86 指令 的 更 多 细节 。 
. -IA32 的 movl 指 今 分 成 了 4 个 不 同 的 指令 : ijrmovl、rrmovl、mrmovl 和 rmmovl， 分 
别 显 式 地 指明 源 和 目的 的 格式 。 源 可 以 是 立即 数 〈i)、 寄 存 器 (r) 或 存储 器 (m)。 指 令 
名 字 的 第 一 个 字母 就 表明 了 源 的 类 型 。 目 的 可 以 是 寄存 器 (r) 或 存储 器 〈(m)。 指 令 名 字 
的 第 二 个 字母 指明 了 目的 类 型 。 在 决定 如 何 实现 数据 传送 时 ， 显 式 地 指明 数据 传送 的 这 4 
种 类 型 是 很 有 帮助 的 。 
两 个 存储 器 传送 指令 中 的 存储 器 引用 方式 是 简单 的 基 址 和 偏 移 量 形 式 。 在 地 址 计算 中 ， 
我 们 不 支持 第 二 变 址 寄存 器 〈second index register) 和 任何 寄存 器 值 的 伸缩 (scaling)。 
同 IA32 一 样 ， 不 允许 从 一 个 存储 器 地 址 直接 传送 到 另 一 个 存储 器 地 址 。 另 外 ， 也 不 多 
许 将 立即 数 传送 到 存储 器 。 | 

。 有 4 个 整数 操作 指令 ， 如 图 4-2 所 示 的 OP1。 它 们 是 addl、subl、andl 和 xorl。 它 们 

”只 对 寄存 器 数据 进行 操作 ， 而 IA32 还 允许 对 存储 器 数据 进行 这 些 操 作 。 这 些 指令 会 设置 3 
个 条 件 码 ZF、SF 和 OF 〈 零 、 符 号 和 溢出 )。 

“7 个 跳 转 指令 (图 4-2 中 的 jXX) 是 jmp、jle、j1、je、jne、jge 和 jg。 根据 分 支 指 
令 的 类 型 和 条 件 码 的 设置 来 选择 分 支 。 分 支 条 件 和 IA32 的 一 样 〈 见 图 3-12 )。 

。 有 6 个 条 件 传送 指令 (图 42 中 的 cmovXX) : cmovle、cmovl、cmove、cmovne、cmovge 
和 cmovg。 这 些 指令 的 格式 与 寄存 器 一 寄存 器 传送 指令 rrmov1 一 样 ， 但 是 只 有 当 条 件 
码 满足 所 需要 的 约束 时 ， 才 会 更 新 目的 寄存 器 的 值 。 

。cal1l 指令 将 返回 地 址 和 人 栈 ， 然 后 跳 到 目的 地 址 。ret 指令 从 这 样 的 过 程 调用 中 返回 。 

。pushl 和 popl 指令 实现 了 人 栈 和 出 栈 ， 就 像 在 IA32 中 一 样 。 

。halt 指令 停止 指令 的 执行 。IA32 中 有 一 个 与 之 相当 的 指令 hit。IA32 的 应 用 程序 不 允许 
使 用 这 条 指令 ， 因 为 它 会 导致 整个 系统 暂停 运行 。 对 于 Y86 来 说 ， 执 行 halt 指令 会 导致 
处 理 器 停止 ， 并 将 状态 码 设 置 为 HLT (参见 4.1.4 节 )。 / 

4.1.3 ”指令 编码 。 | 

图 4-2 还 给 出 了 指令 的 字 节 级 编码 。 每 条 指令 需要 1 ~ 6 个 字 节 不 等 ， 这 取决 于 需要 哪些 字 
段 。 每 条 指令 的 第 一 个 字 节 表明 指令 的 类 型 。 这 个 字 节 分 为 两 个 部 分 ， 每 部 分 4 位 : 高 4 位 是 代 
码 (code) 部 分 ， 低 4 位 是 功能 (function) 部 分 。 如 图 4-2 所 示 ， 代 码 值 为 0 一 0xB。 功能 值 
只 有 在 一 组 相关 指令 共用 一 个 代码 时 才 有 用 。 图 4-3 给 出 了 整数 操作 、 条 件 传送 和 分 支 指令 的 具 
体 编 码 。 可 以 观察 到 ，rrmov1 与 条 件 传送 有 同样 的 指令 代码 。 可 以 把 它 看 作 是 一 个 “无 条 件 传 
送 ”， 就 好 像 jmp 指令 是 无 条 件 跳 转 一 样 ， 它 们 的 功能 代码 都 是 0。 


。 束 数 操作 分 支 指令 传送 指令 

oaa [E10] jmp 二 ey 
| jle je cmovle| 2 | 1 | cmovge [z1s] 
andl j1 jg cmov1 cmovg 
xorl je cmove 


图 4-3 Y86 指令 集 的 功能 码 。 这 些 代 码 指明 是 某 个 整数 操作 、 分 支 条 件 还 是 数据 传送 条 件 。 
这 些 指令 是 图 4-2 中 所 示 的 OPl1、jXX 和 cmovXX 


如 图 4-4 所 示 ， 8 个 程序 寄存 器 中 每 个 都 有 相应 的 0 ~ 7 的 寄存 器 标识 符 register ID )。 
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Y86 中 的 寄存 器 编号 跟 IA32 中 的 相同 。 程 序 寄 存 器 存在 CPU 中 的 一 个 寄存 器 文件 中 ， 这 个 寄存 
器 文件 就 是 一 个 小 的 、 以 寄存 器 ID 作为 地 址 的 随机 访问 存储 器 。 人 
件 设计 中 ， 当 需要 指明 不 应 访问 任何 寄存 器 时 ， 就 用 ID 值 0xF 来 表示 。 

有 的 指令 只 有 一 个 字 节 长 ， 而 有 的 需要 操作 数 的 指令 编码 
就 更 长 一 些 。 首 先 ， 可 能 有 附加 的 寄存 器 指示 符 字 节 (register 
specifier byte)， 指 定 一 个 或 两 个 寄存 器 。 在 图 4-2 中 ， 这 些 寄存 
器 字段 为 TIA 和 rB。 从 指令 的 汇编 代码 表示 中 可 以 看 到 ， 根 据 指 
令 类 型 ， 指 令 可 以 指定 用 于 数据 源 和 目的 的 寄存 器 ， 或 是 用 于 | 
地 址 计算 的 基 址 寄存 器 。 没 有 寄存 器 操作 数 的 指令 ， 例 如 分 支 指 
令 和 call 指令， 就 没有 寄存 器 指示 符 字 节 。 那 些 只 需要 一 个 寄 
存 器 操作 数 的 指令 〈irmov1、Ppushl 和 pop1) 将 另 一 个 寄存 器 
指示 符 设 为 0xF。 这 种 约定 在 我 们 的 处 理 器 实现 中 非常 有 用 。 

有 些 指 令 需 要 一 个 附加 的 4 字 节 常数 字 (constant word)。 
这 个 字 能 作为 irmov1l 的 立即 数 数据 ，rmmovl 和 mrmov1l 的 图 4-4 Y86 程序 寄存 器 标识 符 (8 





0 
1 
2 
oe 
“4 
9 
6 
7 
F 


地 址 指示 符 的 偏 移 量 ， 以 及 分 支 指令 和 调用 指令 的 目的 地 址 。 个 寄存 器 都 有 相应 0~7 的 
注意 ， 分 支 指令 和 调用 指令 的 目的 地 址 是 一 个 绝对 地 址 ， 而 不 标识 符 〈ID )。 如 果 指令 
是 像 IA32 中 那样 使 用 PC 程序 计数 器 〉 相 对 寻 址 方式 。 处 中 某 寄 存 器 字段 人 D 值 为 
理 器 使 用 PC 相对 寻 址 方式 ， 分 支 指令 的 编码 会 更 简洁 ， 同 时 0xF， 表 示 没 有 寄存 器 操 
这 样 也 能 允许 代码 从 存储 器 的 一 部 分 复制 到 另 一 部 分 ， 而 不 需 作 数 ) 


要 更 新 所 有 的 分 支 目 标 地 址 。 因 为 我 们 更 关心 描述 的 简单 性 ， 所 以 就 使 用 了 绝对 寻 址 方式 。 同 
IA32 一 样 ， 所 有 整数 采用 小 端 法 (little-endian) 编码 。 当 指 今 按照 反 汇编 格式 书写 时 ， 这 些 字 
节 就 以 相反 的 顺序 出 现 。 

例如 ， 用 十 六 进 制 表示 指令 rmmovl%esp，0x12345 (%edx) 的 字 节 编码 。 从 图 4-2 我 们 
可 以 看 到 ，rmmov1 的 第 一 个 字 节 为 40。 源 寄存 器 sesp 应 该 编码 放 在 rA 字段 中 ， 而 基 址 寄 
存 器 sedx 应 该 编码 放 在 IB 字段 中 。 根 据 图 4-4 中 的 寄存 器 编号 ， 我 们 得 到 寄存 器 指示 符 字 闻 
42。 最 后 ， 偏 移 量 编码 放 在 4 字 节 的 常数 字 中 。 首 先 在 0x12345 的 前 面 填 上 0 变 成 4 个 字 节 ， 
变 成 字 节 序 列 00 01 23 45， 写 成 按 字 节 反 序 就 是 45 23 01 00。 将 它们 都 连接 起 来 就 得 到 
指令 的 编码 404245230100。 

指令 集 的 一 个 重要 性 质 就 是 字 节 编码 必须 有 唯一 的 解释 。 任 意 一 个 字 节 序列 要 人 么 是 一 个 唯一 的 
指令 序列 的 编码 ， 要 么 就 不 是 一 个 合法 的 字 节 序列 。Y86 就 具有 这 个 性 质 ， 因 为 每 条 指令 的 第 一 个 
字 节 有 唯一 的 代码 和 功能 组 合 ， 给 定 这 个 字 节 ， 我 们 就 可 以 决定 所 有 其 他 附加 字 节 的 长 度 和 含义 。 
这 个 性 质保 证 了 处 理 器 可 以 无 二 义 性 地 执行 目标 代码 程序 。 即 使 代码 甬 人 在 程序 的 其 他 字 节 中 ， 只 
要 从 序列 的 第 一 个 字 节 开始 处 理 ， 我 们 仍然 可 以 很 容易 地 确定 指令 序列 。 反 过 来 说 ， 如 果 不 知道 一 
段 代 码 序 列 的 起 始 位置 ， 我 们 就 不 能 准确 地 确定 怎样 将 序列 划分 成 单独 的 指令 。 对 于 试图 直接 从 目 
标 代码 字 节 序列 中 抽取 出 机 器 级 程序 的 反 汇 编程 序 和 其 他 一 些 工 具 来 说 ， 这 就 带 来 了 问题 。 
| 练习 题 4:1 确定 下 面 的 Y86 指令 序列 的 字 节 编码 。“ .pos 0x100” 那 一 行 表明 这 段 目标 代码 的 起 始 

地 址 应 该 是 十 0x100。 


.pos Ox100 # Start code at address Ox100 





irmovl $15,%ebx # Load 15 into Whebx 
rrmovl] %ebx ,hecx # Copy 15 to %ecx 

loop: # loop: 
rmmov] Wecx,-3(%Xebx) # Save hecx at address 15- 3 = 12 
addl] 。 /pebx, /pecxX # Increment hecx by 15 


jmp loop # Goto loop 
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广 呈 | 练习 题 4.2 ”确定 下 列 每 个 字 节 序列 所 编码 的 Y86 指令 序列 。 如 果 序 列 中 有 不 合法 的 字 节 ， 指 出 指令 
序列 中 不 合法 值 出 现 的 位 置 。 每 个 序列 都 先 给 出 了 起 始 地 址 ， 冒 号 ， 然 后 是 字 节 序列 。 


A. 0x100:30f3fcffffff40630008000000 

B. 0x200:a06f80080200000030f30a00000090 
C. Ox300:50540700000010f0b01f 

D. Ox400:6113730004000000 

E. Ox500:6362a0f0 


比较 IA32 和 Y86 的 指令 编码 : 

同 IA32 中 的 指令 编码 相 比 ，Y86 的 编码 简单 得 多 ， 但 是 没 那 么 紧凑。 在 所 有 的 了 86 指令 中 ， 
寄存 器 字段 的 位 置 都 是 固定 的 ， 而 在 不 同 的 IA32 指令 它们 的 位 置 是 不 一 样 的 。 即使 最 多 只 
有 8 个 可 能 的 寄存 器 ， 我 们 也 对 寄存 器 采用 了 4 位 编码 。IA32 只 用 了 3 位 编码 。 所 以 IA32 能 将 
入 栈 或 出 栈 指令 放 进 一 个 字 节 里 ，5 位 字段 表明 指令 的 类 型 ， 剩 下 的 3 位 是 寄存 器 指示 符 。IA32 
可 以 将 常数 值 编码 成 1、2 或 4 个 字 节 ， 而 Y86 总 是 将 常数 值 编码 成 4 个 字 节 


RISC 和 CISC 指令 集 , 
”IA32 有 时 称 为 “复杂 指令 集 计算 机 ” CCISC__ 读 作 “sisk”)， 与 “精简 指令 集 计 站 机 ” 
(RISC 一 一 读 作 “risk”) 相对 。 历 史上 ， 先 出 现 了 CISC 机 器 ， 它 从 最 早 的 计算 机 演化 而 来 。 到 
20 世纪 80 年代 早 期 ， 随 着 机 器 设计 者 加 入 了 很 多 新 指令 来 支持 高 级 任务 ( 例 如 处 理 循 环 缓冲 
区 ， 执行 十 进 制 数 计算 ， 以 及 求 多 项 式 的 值 )， 大 型 机 和 小 型 机 的 指令 集 已 经 变 得 非常 庞大 了 。 
最 早 的 微 处 理 器 出 现在 20 世纪 70 年 代 早 期 ， 因 为 当时 的 集成 电路 技术 极 大 地 制约 了 一 块 芯片 
上 能 实现 些 什 么 ， 所 以 它们 的 指令 集 非常 有 限 。 微 处 理 器 发 展 得 很 快 ， 到 20 世纪 80 年 代 早期 ， 
大 型 机 和 小 型 机 的 指令 集 复 杂 度 一 直 都 在 增加 。x86 家 族 沿 着 这 条 道路 发 展 到 IA32， 最 近 是 
X86-64。 即 使 是 X86 系列 也 仍然 在 不 断 地 变化 ， 基 于 新 出 现 的 应 用 的 需要 ， 增 加 新 的 指令 类 

20 世纪 80 年 代 早 期 ，RISC 的 设计 理念 是 作为 上 述 发 展 趋势 的 一 种 替代 而 发 展 起 来 的 。 
IBM 的 一 组 硬件 和 编译 器 专家 受到 IBM 研究 员 John Cocke 的 很 大 影响 ， 认 为 他 们 可 以 为 更 简单 
的 指令 集 形 式 产生 高 效 的 代码 。 实 际 上 ， 许 多 加 到 指令 集中 的 高 级 指令 很 难 被 编译 器 产生 ， 所 以 
也 很 少 被 用 到 。 一 个 较为 简单 的 指令 集 可 以 用 很 少 的 硬件 实现 ， 能 以 高 效 的 流水 线 结 构 组 织 起 
来 ， 类 似 于 本 章 后 面 描述 的 情况 。 直 到 多 年 以 后 IBM 才 将 这 个 理念 商品 化 ， 开 发 出 了 Power 和 
PowerPC.ISA。 

加 州 大 学 伯克利 分 校 的 David Datieicou po 福 大 学 的 John ey 进 一 步 发 展 了 RISC 
的 概念 。Patterson 将 这 种 新 的 机 器 类 型 命名 为 RISC， Go CISC， 因 为 以 9 
必要 给 一 种 几乎 是 通用 的 指令 集 格式 起 名 字 。 

比较 CISC 和 最 初 的 RISC 指令 集 ， 我 们 发 现下 面 一 些 一 般 特性 

Y86 指令 集 既 有 CISC 指令 集 的 属性 ， 也 有 RISC 指令 仿 集 的 属性 。 和 CISC 二 和 多 它 有 条 件 
码 、 指 令 长 度 可 变 ， 以 及 栈 密集 的 过 程 链 接 。 和 RISC 一 样 的 是 ， 它 采用 load/store 体系 结构 和 
规则 编码 (regular encoding)。Y86 指令 集 可 以 看 成 是 采用 CISC 指令 集 (IA32), 但 又 根据 某 些 
RISC 的 原理 进行 了 简化 。 oe 区 
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0 Intel 描述 全 套 指令 的 文档 [28，29] 有 指令 数量 少 得 多 。 通 当 少 于 100 个 


有 些 指令 的 延迟 很 长 。 包 括 将 一 个 整 块 从 存储 器 的 一 
个 部 分 复制 到 另 一 部 分 的 指令 ， 以 及 其 他 一 些 将 多 个 寄 | ,没有 较 长 寻 汪 的 指 今 。 有 澡 于 期 的 RISS 本 全 全 法 


存 区 信 复 衣 到 在 从 或 从 在 钳制 到 少 个 和 在 六 的 | 到 采 站 人 要 求 编译 器 通过 一 系列 加 法 来 实现 乘 
日 


编码 是 可 变 长 度 的 。IA32 的 指令 长度 可 以 是 1 ~15 ， 编 到 是 国定 长 度 的 通常 所 有 的 指令 都 编码 为 4 不 字 


指定 操作 数 的 方式 很 多 样 。 在 IA32 中 ， 存 储 器 操作 
数 指示 符 可 以 有 许多 不 同 的 组 合 ， 这 些 组 合 由 偏 移 量 、 简单 寻 址 方式 。 通 党 只 有 基 址 和 偏 移 量 寻 址 。 
基 直 和 变 直 天 存 器 懈 及 伸缩 因 了 组 成 。 


只 能 对 寄存 器 操作 数 进 行 算术 和 逻辑 运算 。 人 允许 使 用 
可 以 对 存储 器 和 寄存 器 操作 数 进 和 4 生 算 术 和 逻辑 运算 。 存储 器 引用 的 只 有 load 和 store 指令 ，load 是 从 存储 器 
读 到 寄存 器 ，store 是 从 寄存 器 写 到 存储 器 。 这 种 方法 被 

称 为 load/store 体系 结构 。 


| 对 机 器 级 程序 来 说 实现 细节 是 可 见 的 。 有 些 RISC 机 

对 机 器 级 程序 来 说 实现 细节 是 不 可 见 的 。ISA 提供 了 | 器 禁止 某 些 特殊 的 指令 序列 ， 而 有 些 跳 转 要 到 下 一 条 指 

程序 和 如 何 执行 程序 之 间 的 清晰 的 抽象 。 Le 编译 器 必须 在 这 些 约束 条 件 
下 进行 1 化 。 


没有 条 件 码 。 相 反 ， 对 条 件 检测 来 说 ， 要 用 明确 的 测 
有 条 件 码 。 作 为 指令 执行 的 副产品 ， 设 置 了 一 些 特殊 对 条 人 
试 指令 ， 这 些 指令 会 将 测试 结果 放 在 一 个 普通 的 寄存 器 
的 标志 位 ， 可 以 用 于 条 件 分 支 检测 。 


E ”寄存 器 密集 的 过 程 链接 。 寄 存 器 被 用 来 存 取 过 程 参数 
让 生来 的 过 程 链接 。 模 被 用 来 存 到 过 程 参数 和 返回 地 | 和 返回 地 址 。 因 此 有 些 过 程 能 完全 吉 免 存储 器 引用 。 通 
ee z 常 处 理 器 有 更 多 的 (最 多 的 有 32 个 ) 寄存 器 。 


RISC 与 CISC 之 和 争 

20 世纪 80 年代 ， 计 算 机 体系 结构 领域 里 关于 RISC 指令 集 和 CISC 指令 集 优 缺 点 的 争论 十 
分 激烈 。RISC 的 支持 者 声称 在 给 定 硬件 数量 的 情况 下 ， 通 过 结合 简约 式 指令 集 设计 、 高 级 编译 
器 技术 和 流水 线 化 的 处 理 器 实现 ， 他 们 能 够 得 到 更 强 的 计算 能 力 。 而 CISC 的 拥 穆 反 驱 说 要 完成 
一 个 给 定 的 任务 只 需要 用 较 少 的 CISC 指令 ， 所 以 他 们 的 机 器 能 够 获得 更 丙 的 总 \ 体 性 能 。 

大 多 数 公司 都 推出 了 RISC 处 理 器 系列 产品 ， 包 括 Sun Microsystems (SPARC)、IBM 
和 Motorola (PowerPC)， 以 及 Digital Equipment Corporation (Alpha)。 一 家 英国 公司 Acom 
Computers Ltd. 提出 了 自己 的 体系 结构 一 一 ARM (Acorn RISC Machine)， 它 广泛 应 用 在 嵌入 式 
系统 中 ， 上 比如 手机 。 : 

20 世纪 90 年 代 早 期 ， 争 论 逐 渐 平 急 ， 因 为 事实 已 经 很 清楚 了 ， 无 论 是 单纯 的 RISC 还 是 
单纯 的 CISC 都 不 如 结合 两 者 思想 精华 的 设计 。RISC 机 器 发 展 进 化 的 过 程 中 ， 引 入 了 更 多 的 指 
令 ， 而 许多 这 样 的 指令 部 需要 执行 多 个 周期 。 今 天 的 RISC 机 器 的 指令 表 中 有 几 百 条 指令 ， 几 乎 

与 “精简 指令 集 机 器 ”的 名 称 不 相符 了 。 那 种 将 实现 细节 暴露 给 机 器 级 程序 的 思想 已 经 被 证 明 是 
ee 随 着 使 用 更 加 高 级 硬件 结构 的 新 处 理 器 模型 的 开发 ， 许 多 实现 细节 已 经 变 得 很 落后 
了 ， 但 它们 仍然 是 指令 集 的 一 部 分 。 不 过 ， 作 为 RISC 设计 的 核心 的 指令 集 仍然 是 非常 适合 在 流 
水 线 化 的 机 器 上 执行 的 。 

比较 新 的 CISC 机 器 也 利用 了 高 性 能 流水 线 结构 。 就 像 我 们 将 在 5.7 节 中 讨论 的 那样 ， 它 们 
读 取 CISC 指令 ， 并 动态 地 翻译 成 比较 简单 的 、 像 RISC 那样 的 操作 的 序列 。 例 如 ， 一 条 将 寄存 
器 和 看 储 器 相 加 的 指令 被 翻译 成 三 个 操作 : 一 个 是 读 原始 的 存储 器 值 ， 一 个 是 执行 加 法 运算 ， 第 
三 就 是 将 和 写 回 存储 器 。 由 于 动态 翻译 通常 可 以 在 实际 指令 执行 前 进行 ， 处 理 器 仍然 可 以 保持 很 
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高 的 执行 速率 。 / 

除了 技术 因素 以 外 ， 决 定 不 同 指令 集 是 否 成 功 市 场 因素 也 起 了 很 重要 的 作用 。 通 过 保持 与 现 
有 处 理 器 的 兼容 性 ，Intel 以 及 x86 使 得 从 一 代 处 理 器 迁移 到 下 一 代 变 得 很 容易 。 由 于 集成 电路 
技术 的 进步 ，Intel 和 其 他 X86 处理 器 制造 商 能 够 克服 原来 8086 指令 集 设计 造成 的 低 效 率 ， 使 用 
RISC 技术 产生 出 与 最 好 的 RISC 机 器 相当 的 性 能 。 正 如 我 们 在 第 3.13 节 中 看 到 的 那样 ，IA32 发 
展演 变 到 X86-64 提供 了 一 个 机 会 ， 使 得 能 够 将 RISC 的 一 些 特性 结合 到 X86 中 。 在 桌面 和 便携 
计算 领域 里 ，x86 占据 了 完全 的 统治 地 位 ， 而 且 在 高 端 服务 器 机 器 市 场 里 也 变 得 越 来 越 流 行 。 

RISC 处 理 器 在 谋 入 式 处 理 器 市 场 上 表现 得 非常 出 色 ， 谋 入 式 处 理 器 负责 控制 移动 电话 、 汽 
车 测 车 以 及 因特网 电器 等 系统 。 在 这 些 应 用 中 ， 降 低 成 本 和 功 耗 比 保持 后 向 兼容 性 更 重要 。 就 出 
售 的 处 理 器 数量 来 说 ， 这 是 个 非常 广阔 而 迅速 成 长 着 的 市 场 。 


4.1.4 Y86 异常 

对 Y86 来 说 ， 程 序 员 可 见 的 状态 ( 见 图 4-1) 包括 状态 码 Stat， 它 描述 程序 执行 的 总 体 状 
态 。 这 个 代码 可 能 的 值 如 图 4-5 所 示 。 代 码 值 1， 命 名 为 AAOK， 表 示 程 序 执行 正常 ， 而 其 他 一 些 
代码 则 表示 发 生 了 某 种 类 型 的 异常 。 代 码 2， 命 名 为 HLT， 表 示 处 理 器 执行 了 一 条 halt 指令 。 
代码 3， 命 名 为 ADR， 表 示 处 理 器 试图 从 一 个 非法 存储 器 地 址 读 或 者 向 一 个 非法 存储 器 地 址 写 ， 
可 能 是 当 取 指令 的 时 候 ， 也 可 能 是 当 读 或 者 写 数据 的 时 候 。 我 们 会 限制 最 大 的 地 址 (确切 的 限定 
值 因 实现 而 异 )， 任 何 访问 超出 这 个 限定 值 的 地 址 都 会 引发 ADR 异常 。 代 码 4， 命 名 为 INS， 表 
示 遇 到 了 非法 的 指令 代码 。 


正常 操作 


处 理 器 执行 halt 指令 
遇 到 非法 地 址 
遇 到 非法 指令 





图 4-5 Y86 状态 码 〈 在 我 们 的 设计 中 ， 任 何 AOK 以 外 的 代码 都 会 使 处 理 器 停止 ) 


对 于 Y86， 当 遇 到 这 些 异 常 的 时 候 ， 我 们 就 简单 地 让 处 理 器 停止 执行 指令 。 在 更 完整 的 设计 
中 ， 处 理 器 通常 会 调用 一 个 异常 处 理 程序 (excepton handler)， 这 个 过 程 被 指定 用 来 处 理 遇 到 的 
某 种 类 型 的 异常 。 就 像 在 第 8 章 中 讲述 的 ， 异 常 处 理 程序 可 以 被 配置 成 不 同 的 结果 ， 例 如 ， 放 弃 
程序 或 者 调用 一 个 用 户 自 定义 的 信号 处 理 程序 〈signal handler)。 


4.1.5 Y86 程序 
4-6 是 下 面 这 个 C 函数 的 IA32 和 Y86 汇编 代码 : 


int Sum(int *Start, int Count) 
{ 
int sum = 0; 
while (Count) { 
sum += *Start; 
Start++; . 
Count—-—; 
} 


return Sunm ; 


238 老 一 遍 分 ， 程 户 结 榴 布 执 厅 


IA32 code Y86 code 


int Sm{int xStart, int Count) int Sun(int xStart, int Count) 


1 Sum: 1 Sunm: 

2 .| pushl %ebp | l 2 pushl %ebp 

3 .movl yesp ,yebp 3 rrmovl hesp ,hebp 

4 movl 8(%ebp),%hécx ecx = Start | . mrmov] 8(%ebp),%ecx ECX = Start 
5 .movl 1i2(%ebp),%edx edx = Count mrmov] 1i2(%ebp),%edx edx = Count 
6 
7 
8 
9 


xorl Weax, eax Sum = 0 6 XOT1 %eax,heax Sum “0 
testl] hedx ,%edx andl1 Whedx,%edx Set condivion codes 
.je .L34 , je End ”| 

.L135: | Loop: . 

add1 (Yecx) ,Yeax adqd *Start to sum 1t mrmovl (Xecx), yesi Bet x*Start 
| addl %esi, heax add to sum 
addl $4,%ecx Startt++ | irmov] $4,%ebx 
add1 Webx,%ecx Startt+t 
' decl %edx Count-—~ . < irmov] $-1,%ebx 
addl %ebx,%edx Count~~ 
jnz .135 Stop when 0 ; jne Loop Stop when 0 
.L34: Ed 
mov] %ebp,%esp a | rrmov] %ebp , hesP 
popl %ebp a .popl %ebp 
ret | 7 ret 


图 4-6 Y86 汇编 程序 与 IA32 汇编 程序 的 比较 。Sum 函数 计算 一 个 整数 数组 的 和 。Y86 代码 与 IA32 
代码 的 主要 区 别 在 于 ， 它 可 能 需要 多 条 指令 来 执行 一 条 IA32 指令 所 完成 的 功能 


这 段 IA32 代码 是 GCC 编译 器 产生 的 。Y86 代码 实质 上 是 一 样 的 ， 只 不 过 Y86 有 时 需要 两 
条 指令 来 完成 IA32 一 条 指令 就 能 完成 的 事情 。 然 而 ， 如 果 用 数组 索引 来 写 这 个 程序 ， 要 转换 成 
Y86 代码 就 困难 多 了 ， 因 为 Y86 没有 伸缩 寻 址 模式 。 这 个 代码 遵循 了 我 们 已 经 看 到 过 的 IA32 编 
程 规则 ， 包 括 栈 和 帧 指针 的 使 用 。 为 了 简化 ， 它 没有 遵守 IA32 将 有 些 寄存 器 指定 为 被 调用 者 保 
存 寄存 器 的 规则 。 这 是 一 个 我 们 可 以 随意 采用 也 可 以 无 视 的 编程 规则 。 

图 4-7 给 出 了 用 Y86 汇编 代码 编写 的 一 个 完整 的 程序 文件 的 例子 。 这 个 程序 既 包 括 数据 ， 
也 包括 指令 。 命 令 〈directive) 指明 应 该 将 代码 或 数据 放 在 什么 位 置 ， 以 及 如 何 对 齐 。 这 个 程序 
详细 说 明了 术 的 放置 、 数据 初始 化 、 程序 初始 化 和 程序 结束 等 问题 。 

在 这 个 程序 中 ， 以 “.” 开 头 的 词 是 汇编 器 命令 (assembler directive)， 它 们 告诉 汇编 器 调 
整地 址 ， 以 便 在 那儿 产生 代码 或 插入 一 些 数据 。 命令 .pos0 (第 2 行 ) 告诉 汇编 器 应 该 从 地 址 
0 处 开始 产生 代码 。 这 个 地 址 是 所 有 Y86 程序 的 起 点 。 接 下 来 的 两 条 指令 (第 3 行 和 第 4 行 ) 
我 们 可 以 看 到 程序 结尾 处 〈 第 47 行 ) 声明 了 标号 Stack， 并 且 用 一 

.pos 命令 (第 46 行 ) 指明 地 址 0x100。 因 此 栈 会 从 这 个 地 址 开始 ， 回 低地 址 增长 。 我 们 必 
会 增长 得 太 大 以 至 于 覆盖 了 代码 或 者 其 他 程序 数据 。 

程序 的 第 9 一 13 行 声 明了 一 个 4 个 元 素 的 数组 ， 值 分 别 为 0xd、 dod 0xb00 和 0xa000。 
标号 array 表 明了 这 个 数组 的 起 始 ， 并 且 在 四 字 闻 边界 处 对 齐 〈 用 .align 命令 指定 )。 第 
15 一 24 行 给 出 了 “main” 过 程 ， 在 过 程 中 对 那个 四 个 字 的 数组 调用 了 Sum 函数 ， 然 后 停止 。 

正如 例子 所 示 ， 由 于 我 们 创建 Y86 代码 的 唯一 工具 是 汇编 器 ， 程 序 员 必须 执行 本 来 通常 交 
给 编译 器 、 链 接 器 和 运行 时 系统 来 完成 的 任务 。 幸 好 我 们 只 用 Y86 来 写 一 些小 的 程序 ， 对 此 一 
些 简单 的 机 制 就 足够 了 。 





# Execution begins at address 0 
.po8s 0 

init: irmovl1 Stack, 
irmov] Stack, 
call Main 
halt 


%esp 
hebp 


of 4 elements 
.align 4 
.long Oxd 
.long OxcO 
.long Oxb0O0 
.long Oxa000 


pushl %hebp 

rrmovl] hesp,hebp 
irmov] $4,%eax 
pushl] Wheax 
irmov] array,%edx 
pushl %edx 

call Sum 

rrmovl hebp ,pesPp 
Pop1 %ebp 

ret 


#.int Sum(int *Start, int 
pushl] %ebp 

rrmovl] %esp,whebp 
mrmovl 8(%ebp) ,hecx 
mrmovl 12(%ebp) ,%edx 
Xorl Weax,%eax 

andl  %edx,%edx 

je End 
mrmovl (%ecx),%esi 
addl %esi ,heax 

, irmovl $4,%ebx 

add1 %ebx,%ecx 
irmov] $-1 ,ebx 

add]1 %ebx ,%edx 

jne Loop 

rrmovl] %ebp,%esp 
popl %ebp 

ret 


# The stack starts here and grows 
.pos Ox100 
Stack: 
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Set up stack pointer 
Set up base pointer 

Execute main program 
Terminate program 


Push 4 


Push array 
Sum(array, 4) 


ecx Start 

edx = Count 

sum = 0 

Set condition codes 


get *Start 
add to sum 


Start++ 


Count—— 
Stop when 0 


to lower addresses 


图 47 用 Y86 汇编 代码 编写 的 一 个 例子 程序 。 调用 Sum 函数 来 计算 一 个 具有 4 个 元 素 的 数组 的 和 


图 4-8 是 YAS 汇编 器 对 图 4-7 中 代码 进行 汇编 的 结果 。 为 了 便于 理解 汇编 器 的 输出 结果 
是 ASCII 码 格式 。 汇 编 文 件 中 有 指令 或 数据 的 行 上 ， 目 标 代码 包含 一 个 地 址 ， 后 面 跟着 1 一 6 
个 字 节 的 值 。 


240 田 一 部分 在 序 红 移 和 和 效 疗 


# Execution begins at address 0 
.pos 0 
: 30f400010000 | init: irmovl Stack, %esp Set up stack pointer 
: 30f500010000 irmov]l Stack, %ebp ‘:# Set up base pointer 
: 8024000000 call Main Execute main program 
: 00 halt ‘Terminate program 


of 4 elements 
.align 4 

: 0d000000 : .long Oxd 

: c0000000 .long 0xc0 

: 000b0000 ， .long Oxb00 

: 00a00000 .long Oxa000 


: a05f in: pushl webp 

: 2045 rrmovl hesp,w%ebp 

: 30f004000000 irmov] $4 ,%eax 

: a00f Push1 %eax Push 4 

: 30f214000000 irmov] array,%edx 

: a02f pushl] %edx Push array 

: 8042000000 call Sum | Sum(array, 4) 
: 2054 rrmovl %ebp,%esp 

: b05f popl %ebp 

: 90 ret 


# int Sum(int *Start, int 
: a05f : pushl %ebp 
: 2045 rrmov] %esp,%ebp 
: 501508000000 mrmovl 8(%ebp),%ecx = Start 
: 50250c000000 mrmov] 12(%ebp) ,%edx # edx = Count 
: 6300 . XOorl heax,%eax sum=0 
: 6222 andl %edx,%edx # Set condition codes 
: 7378000000 | je End | 
: 506100000000 : mrmovl (%ecx), Yesi get *Start 
: 6060 addl %esi ,Wheax # add to sum 
: 30f304000000 | ~ irmov] $4,%ebx 
: 6031 addl Xebx ,%ecx Start++ 
: 30f3ffffffff irmov]1 $-1,%ebx 
: 6032 add1 %ebx,%edx -# Count-- 
: 745b000000 jne Loop ,# Stop when 0 
: 2054 rrmovl %ebp,%esp 
: b05f popl %ebp . 
: 90 ret 


# The stack starts here and grows to lower addresses 
.pos Ox100 


Stack: 





4-8 YAS 汇编 器 的 输出 。 每 一 行 包含 一 个 十 六 进 制 的 地 址 ， 以 及 字 节 数 在 1 ~ 6 之 间 的 目标 代码 


我 们 实现 了 一 个 指令 集 模拟 器 ， 称 为 YIS， 它 的 目的 是 模拟 Y86 机 器 代码 程序 的 执行 ， 而 
不 用 试图 去 模拟 任何 具体 处 理 器 实现 的 行为 。 这 种 形式 的 模拟 有 助 于 在 有 实际 硬件 可 用 之 前 调试 
程序 ， ee 用 YIS 运行 例子 的 目标 代码 ， A 
生 下 面 这 样 的 输出 : 


Stopped in 52 steps at PC = Oxiil. Status 'HLT', CC 2Z=1 S=0 0=0 
Changes to registers: 

heax: Ox00000000 Ox0000abcd 

hecx: Ox00000000 0x00000024 

webx: Ox00000000 Oxffffffff 
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hesp: 0x00000000 0x00000100 
%ebp: 0x00000000 0x00000100 
%esi: 0x00000000 0x0000a000 
Changes to memory: 

Ox00e8: 0x00000000 0x000000f8 
Ox00ec: 0x00000000 0x0000003d 
0x00f0: 0x00000000 0x00000014 
0x00f4: 0x00000000 0x00000004 
0x00f8: Ox00000000 Ox00000100 
0x00fc: Ox00000000 Ox00000011 


模拟 输出 的 第 一 行 总 结 了 执行 以 及 PC 和 程序 状态 的 结果 值 。 模 拟 器 只 打印 出 在 模拟 过 各 
中 被 改变 了 的 寄存 器 或 存储 器 中 的 字 。 左 边 是 原始 值 (这 里 都 是 0)， 右 边 是 最 终 的 值 。 从 输出 
中 我 们 可 以 看 到 ， 寄 存 器 $eax 的 值 为 0xabcdq， 即 传 给 子 函 数 Sum 的 四 元 素数 组 的 和 。 另 外 ， 
我 们 还 能 看 到 栈 从 地 址 0x100 开始 ， 向 下 增长 ， 栈 的 使 用 导致 存储 器 地 址 0xe8 ~ 0xfc 发 生 
了 变化 。 这 个 距离 可 执行 代码 的 最 大 地 址 0x7c 还 差 得 很 远 。 
这 练习 题 4.3 ”根据 下 面 的 C 代码 ， 用 Y86 代码 来 实现 一 个 递归 求 和 函数 rSum: 





int rSum(int *Start, int Count) 


{ 
if (Count <= 0) 
return 0; 
return *Start + rSum(Start+1, Count-1); 
} 


在 一 人 台 IA32 机 器 上 编译 这 段 C 代码 ， 然 后 再 把 那些 指令 翻译 成 Y86 的 指令 ， 这 样 做 可 能 会 很 有 帮助 。 
训练 习题 4.4 修改 Sum 函数 的 Y86 代码 (图 4-6)， 实现 函数 AbsSum， 计 算 一 0 
在 内 循环 中 使 用 条 件 跳 转 指 令 。 
Bl 练习 题 4.5 修改 Sum 函数 的 Y86 代码 (图 4-6)， Sd 计算 一 TR 
在 内 循环 中 使 用 条 件 传送 指令 。 
4.1.6 一 些 Y86 指令 的 详情 
大 多 数 Y86 指令 是 以 一 种 直接 的 方式 修改 程序 状态 的 ， a A 
并 不 困难 。 不 过 ， 两 个 特别 的 指令 组 合 需 要 特别 注意 一 下 。 
pushl 指令 会 把 栈 指针 减 4， 并 且 将 一 个 寄存 器 值 写 人 存储 器 中 。 因此 ， 当 执 行 pushl 
%esp 指令 时 ， 处 理 器 的 行为 是 不 确定 的 ， 因为 要 入 栈 的 寄存 器 会 被 同一 条 指令 修改 。 a 
种 约定 : 1) 压 人 $esp 的 原始 值 ，2) 压 人 减 去 4 的 sesp 的 值 。 
对 于 Y86 处 理 器 来 说 ， 我 们 采用 和 IA32 一 样 的 方法 ， 就 像 下 面 这 个 练习 题 确定 的 那样 。 
5 引 练 习题 4.6 确定 IA32 处 理 器 上 指令 pushl%esp 的 行为 。 我 们 可 以 通过 阅读 Intel 关于 这 条 指令 的 
文档 来 了 解 它们 的 做 法 ， 但 更 简单 的 方法 是 在 实际 的 机 器 上 做 个 实验 。C 编译 器 正常 情况 下 是 不 会 产 
生 这 条 指令 的 ， 所 以 我 们 必须 用 手工 生成 的 汇编 代码 来 完成 这 一 任务 。 下 面 是 我 们 写 的 一 个 测试 程序 
(网 络 旁 注 ASM : EASM， W060 0 0 











1 .text 

2 ‘globl pushtest 

3 pushtest: 

4 pushl  %ebp 

5 movl %esp,%ebp 
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6 movl hesp, heax Copy stack pointer 

7 pushl  %esp Push stack pointer 

8 popl hedx Pop it back 

9 subl Yedx ,Xeax Subtract new 了 roa cld stack pointer 
10 leave Restore stack & trame pointers 

11 ret 


在 实验 中 ， 我 们 发 现 函 数 pushtest 总 是 返回 0， 这 表示 在 IA32 中 pushl%esp 指令 的 行为 是 怎样 的 呢 ? 
对 popl%esp 指令 也 有 类 似 的 歧义 。 可 以 将 $esp 置 为 从 存储 器 中 读 出 的 值 ， 也 可 以 置 为 
加 上 4 后 的 栈 指针 。 同 练习 题 4.6 一 样 ， 让 我 们 做 个 实验 来 确定 IA32 机 器 是 怎么 处 理 这 条 指令 


的 ， 然 后 Y86 机 器 就 采用 同样 的 方法 。 
SN 练习 题 4.7 ”下面 这 个 汇编 函数 让 我 们 确定 IA32 上 指令 popl%esp 的 行为 : 





] .text 
2 .globl poptest 
3 poptest: 
4 push1  %ebp 
5 movl hesp, %ebp 


6 pushl $0Oxabcd Push test value 

7 Pop1 hesp Pop to stack pointer 

8 movl hesp,， heax Set poppeqd value 6S return vailue 
9 leave Restore stack and frame pointers 
10 ret 


我 们 发 现 函 数 总 是 返回 0xabcd。 这 表示 popl%esp 的 行为 是 怎样 的 ? 还 有 什么 其 他 Y86 指令 也 有 相 
同 的 行为 吗 ? 


正确 了 解 细节 : x86 模型 间 的 不 一 致 
练习 题 4.6 和 4.7 是 可 以 帮助 我 们 确定 对 于 压 入 和 弹出 栈 指 针 指 令 的 一 致 惯例 。 看 上 去 似乎 
没有 理由 会 执行 这 样 两 种 操作 ， 那 么 一 个 很 自然 的 问题 就 是 “为 什么 要 担心 这 样 一 些 吹 毛 求 疯 的 
细节 呢 ? ” 
从 Intel 关于 POP 指令 的 文档 [29] 的 节选 中 ， 可 以 学 到 几 个 关于 这 个 一 致 的 重要 性 的 有 用 教训 : 
对 于 IA-32 处 理 器 ， 从 Intel 286 开始 , PUSH ESP 指令 将 ESP 寄存 器 的 值 压 入 栈 中 ， 
就 像 它 存在 于 这 条 指令 被 执行 之 前 。( 对 于 Intel 64 体系 结构 、IA-32 体系 结构 的 实地 址 
模式 和 虚 8086 模式 来 说 也 是 这 样 。) 对 于 Intel 8086 处 理 器 ，PUSH SP 将 SP 寄存 器 的 
新 值 压 入 栈 中 〈 也 就 是 减 去 2 之 后 的 值 )。 
这 条 注释 说 明 当 执行 压 入 栈 指针 寄存 器 指令 时 ， 不 同型 号 的 x86 处 理 器 会 做 不 同 的 事情 。 有 
些 会 压 入 原始 的 值 ， 而 有 些 会 压 入 减 去 后 的 值 。( 有 趣 的 是 ， 对 于 弹出 栈 指 针 和 寄存 器 没有 类 似 的 
歧义 。) 这 种 不 一 致 有 两 个 缺点 : 
斌 了 从 了 代码 的 可 入 村 性。 到 关于 处 理 江 和 程序 可 能 会 有 不 同 的 行为 。 虽然 这 样 特殊 
令 并 不 常见 ， 但 是 即使 是 潜在 的 不 兼容 也 可 能 带 来 严重 的 后 果 。 
ee dy 需要 一 个 特别 的 说 明 来 洲 清 这 些 不 
同 之 处 。 即 使 没有 这 样 的 特殊 情况 ，x86 文档 已 经 够 复杂 的 了 。 
因此 我 们 的 结论 是 ， 从 长 远 来 看 ， 提 前 了 解 细节 ， 力 争 保持 完全 的 一 致 能 够 节省 很 多 的 麻烦 。 


4.2 逻辑 设计 和 硬件 控制 语言 HCL 


在 硬件 设计 中 ， 用 电子 电路 来 计算 对 位 进行 运算 的 孙 数 ， 以 及 在 各 种 存储 器 元 素 中 存储 位 。 
大 多 数 现代 电路 技术 都 是 用 信和 号 线 上 的 高 电压 或 低 电 压 来 表示 不 同 的 位 值 。 在 当前 的 技术 中 ， 逻 
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辑 1 是 用 1.0 伏特 左右 的 高 电压 表示 的 ， 而 逻辑 0 是 用 0.0 伏特 左右 的 低 电压 表示 的 。 要 实现 一 
个 数字 系统 需要 三 个 主要 的 组 成 部 分 : 订 算 对 位 进行 操作 的 函 玫 的 组 合 多 得 、 存储 位 的 存储 器 元 
素 ， 以 及 控制 存储 器 元 素 更 新 的 时 钟 信号 

本 节 简 要 描述 这 些 不 同 的 组 成 部 分 。 我 们 还 将 介绍 HCL (Hardware Control Language， 硬 
件 控制 语言 )， 用 这 种 语言 来 描述 不 同 处 理 髓 设计 的 控制 逻辑 。 在 此 我 们 只 是 简略 地 描述 HCL， 
HCL 完整 的 参考 请 见 网 络 旁 注 ARCH:HCL。 


现代 逻辑 设计 

曾经 ， 硬 件 设计 者 通过 描绘 示意 性 的 逻辑 电路 图 来 进行 电路 设计 最 早 是 用 纸 和 笔 ， 后 来 是 
用 计算 机 图 形 终 庙 )。 现 在 ， 大 多 数 设计 前 是 用 硬件 描述 语言 (Hardware Description Language, 
HDL) 来 表达 的 。HDL 是 一 种 文本 表示 ， 看 上 去 和 编程 语言 类 似 ， 但 是 它 是 用 来 描述 硬件 结构 
而 不 是 程序 行为 的 。 最 常用 的 语言 是 Verilog， 它 的 语法 类 似 于 C; 另 一 种 是 VHDL， 它 的 语法 
类 似 于 编程 语言 Ada。 这 些 语 言 本 来 都 是 用 来 表示 数字 电路 的 模拟 模型 的 。20 世纪 80 年 代 中 期 ， 
研究 者 开发 出 了 逻辑 合成 (logic synthesis) 程序 ， 它 可 以 根据 HDL 的 描述 生成 有 效 的 电路 设计 。 
现在 有 许多 商用 的 合成 程序 ， 已 经 成 为 产生 数字 电路 的 主要 技术 。 从 手工 设计 电路 到 合成 生成 的 
转变 就 好 像 从 写 汇 编程 序 到 写 高 级 语言 程序 ， 再 用 编译 器 来 产生 机 器 代码 的 转 变 一 样 。 

我 们 的 HCL 语言 只 表达 硬件 设计 的 控制 部 分 ， 只 有 有 限 的 操作 集合 ， 也 没有 模块 化 。 不 
过 ， 正 如 我 们 会 看 到 的 那样 ， 控制 逻辑 是 设计 微 处 理 器 中 最 难 的 部 分 。 我 们 已 经 开发 出 了 将 
HCL 直接 翻译 成 Verilog 的 工具 ， 将 这 个 代码 与 基本 硬件 单元 的 Verilog 代码 结合 起 来 ， 就 能 产 
生 HDL 描述 ， 根 据 这 个 HDL 描述 就 可 以 合成 实际 能 够 工作 的 微 处 理 器 。 通 过 小 心地 分 离 、 设 
计 和 测试 控制 逻辑 ， 通 过 适当 的 努力 ， 我 们 就 能 创建 出 一 个 可 以 工作 的 微 处 理 器 。 网 络 旁 注 
ARCH:VLOG 介绍 了 如 何 能 产生 Y98 处 理 器 的 Verilog 版 本 。 
4.2.1 逻辑 门 

逻辑 门 是 数字 电路 的 基本 计算 元 素 。 它 们 产生 的 输出 ， 等 于 它们 输入 位 值 的 某 个 布尔 函数 。 
4-9 是 布尔 函数 AND、OR 和 NOT 的 标准 符号 ，C 语言 中 运算 符 (2.1.9 市 ) 的 逻辑 门下 面 是 
对 应 的 HCL 表达 式 : AND 用 && 表示 ，OR 用 表示， 而 NOT 用 ! 表示。 我 们 用 这 些 符号 而 不 
用 C 语言 中 的 位 运算 符 廊 、| 和 ~， 是 因为 还 辑 门 只 对 单个 位 的 数 进行 操作 ， 而 不 是 整个 字 。 虽 
然 图 中 只 说 明了 AND 和 OR 门 的 两 个 输入 的 版 本 ， 但 是 常见 的 是 它们 作为 n 路 操作 ，n>2。 不 
过 ， 在 HCL 中 我 们 还 是 把 它们 写作 二 元 运算 符 ， 所 以 ， 三 个 输入 的 AND 门 ， 输 入 为 a、b 和 c， 
用 HCL 表示 就 是 a&&b&&c。 

逻辑 门 总 是 活动 的 (active)。 一 日 一 个 门 的 输入 变化 了 ， 在 很 短 的 时 间 内 ， 输出 就 会 相应 地 
变化 。 





后 ra : 输出 =!a 加 
图 4-9 逻辑 门类 型 。 每 个 门 产生 的 输出 等 于 它 输入 的 某 个 布尔 水 数 


4.2.2 组 合 电路 和 HCL 布尔 表达 式 
将 很 多 的 逻辑 门 组 合成 一 个 网 ， 就 能 构建 计算 块 (computational block)， 称 为 组 合 电 路 
(combinational circuits ) 。 构 建 这 些 网 有 两 条 限制 : 
。 两 个 或 多 个 逻辑 门 的 输出 不 能 连接 在 一 起 。 否 则 它们 可 能 会 使 线 上 的 信号 矛盾 可 能 会 导 
致 一 个 不 合法 的 电压 或 电路 故障 ; 
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* 这 个 网 必须 是 无 环 的 。 也 就 是 在 网 中 不 能 有 路 径 经 过 一 系列 的 门 而 形成 一 个 回路 ， 这 样 的 
回路 会 导致 该 网 络 计算 的 函数 有 歧义 。. 
图 4-10 是 一 个 我 们 党 得 非常 有 用 的 简单 组 合 电路 的 例子 。 它 有 两 个 输入 a 和 hb， 有 了 唯一 的 
输出 sea， 当 a 和 pb 都 是 1〈 从 上 面 的 AND 门 可 以 看 出 ) 或 都 是 0 (从 下 面 的 AND 门 可 以 看 出 ) 
时 ， 输 出 为 1。 用 HCL 来 写 这 个 网 的 函数 就 是 : 


bool eq = (a && b) || (!a && !b); 


这 段 代码 简单 地 定义 了 位 级 (数据 类 型 bool 表明 了 这 一 点 ) 。 
信号 eq， 它 是 输入 a 和 b 的 函数 。 从 这 个 例子 可 以 看 出 
HCL 使 用 了 C 语言 风 格 的 语法 ，‘=” 将 一 个 信号 名 与 一 个 表 
达 式 联系 起 来 。 不 过 同 C 不 一 样 ， 我 们 不 把 它 3 人 
次 计算 并 将 结果 放 入 存储 器 中 某 个 位 置 。 相 反 ， 它 只 是 用 一 410 炮 测 位 相等 的 组 台电 中 
个 名 字 来 称谓 一 个 表达 式 。 : / 当 输入 都 为 0 或 都 为 1 时 ， 
Ra 练习 题 4.8 写 出 信号 xor 的 HCL 表达 式 ， xor 就 是 异 或 ， 输出 等 于 1 
输入 为 a 和 b。 信 号 xor 和 上 面 定义 的 ed 有 什么 关系 ? 
图 4-11 给 出 了 另 一 个 简单 但 很 有 用 的 组 合 电路 ， 称 为 多 路 复 用 器 (multiplexor， 通 常 称 为 
MUX”)。 多 路 复 用 器 根据 输入 控制 信号 的 值 ， 从 一 组 不 同 的 数据 信号 中 选 出 一 个 。 在 这 个 单个 
eb 两 个 数据 信号 是 输入 位 a 和 b， 控制 信号 是 输入 位 s。 当 s 为 1 时， 输出 等 
a ; 而 当 s 为 0 时 ， 输 出 等 于 b。 在 这 个 电路 中 ， 我 们 可 以 看 出 两 个 AND 门 决定 了 是 否 将 它 
0 OR 门 。 当 s 为 0 时 ， 上 面 的 AND 门将 传送 信号 b〈 因 为 这 个 门 的 
另 一 个 输入 是 !s)， 而 当 s 为 1 时 ， 下 面 的 AND 门将 传送 信号 a。 接 下 来 ， 我 们 来 写 输出 信号 
的 HCL 表达 式 ， 使 用 的 就 是 组 合 逻辑 中 相同 的 操作 : 


bool out = (s && a) || (!s && b); 


HCL 表达 式 很 清楚 地 表明 了 组 合 逻 辑 电 路 和 C 语言 's 
中 逻辑 表达 式 的 对 应 之 处 。 它 们 都 是 用 布尔 操作 来 对 输 
人 进行 计算 的 函数 。 值 得 注意 的 是 ， 这 两 种 表达 计算 的 
方法 之 间 有 以 下 区 别 : , b 一 
。 因 为 组 合 电路 是 由 一 系列 的 逻辑 门 组 成 ， 它 的 属性 
是 输出 会 持续 地 响应 输入 的 变化 。 如 果 电 路 的 输 a 4 : 
人 变化 了 ， 在 一 定 的 延迟 之 后 ， 输 出 也 会 相应 地 变 ”图 4.11 单个 位 的 多 路 复 用 器 电路 。 如 果 
化 。 相 比 之 下 ，C 表达 式 只 会 在 程序 执行 过 程 中 被 控制 信号 s 为 1， 则 输出 等 于 输入 
遇 到 时 才 进 行 求 值 。 a ; 当 s 为 0 时 ， 输 出 等 于 输入 b 
“C 的 逻辑 表达 式 允 许 参 数 是 任意 整数 ，0 表 示 
FALSE， 其 他 任何 值 都 表示 TRUE。 而 逻辑 门 只 对 位 值 0 和 1 进行 操作 。 
“CC 的 逻辑 表达 式 有 个 属性 就 是 它们 可 能 只 被 部 分 求 值 。 如 果 一 个 AND 或 OR 操作 的 结果 只 
用 对 第 一 个 参数 求 值 就 能 确定 ， 那 么 就 不 会 对 第 二 个 参数 求 什 了。 例如， 这 样 一 个 C 表达 式 : 


(a && !a) && func(b,c) 


这 里 函数 func 是 不 会 被 调用 的 ， 因为 表达 式 (ag&&!a ) 求 值 为 0。 而 组 合 多 辑 没有 部 分 求 
值 这 条 规则 ， 逮 辑 门 只 是 简单 地 响应 输入 的 变化 。 








out 
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4.2.3 ” 字 级 的 组 合 电路 和 HCL 整数 表达 式 

通过 将 逻辑 门 组 合成 大 的 网 ;可 以 构造 出 能 计算 更 加 复杂 函数 的 组 合 电 路 。 通 常 ， 我 们 设计 
能 对 数据 字 〈word) 进行 操作 的 电路 。 有 一 些 位 级 信号 ， 代 表 一 个 整数 或 一 些 控制 模式 。 例 如 ， 
我 们 的 处 理 器 设计 将 包含 有 很 多 字 ， 字 的 大 小 为 4 位 和 32 位 ， 代 表 整 数 、 地 址 、 指 令 代 码 和 寄 
存 器 标识 符 。 

执行 字 级 计算 的 组 合 电路 根据 输入 字 的 各 个 位 ， 用 逻辑 门 来 计算 输出 字 的 各 个 位 。 例 如 
图 4-12 中 的 一 个 组 合 电路 ， 它 测试 两 个 32 位 字 A 和 B 是 否 相 等 。 也 就 是 ， 当 且 仪 当 AA 的 每 一 
位 都 和 B 的 相应 位 相等 时 ， 输 出 才 为 1。 这 个 电路 是 用 32 个 图 4-10 中 所 示 的 单个 位 相等 电路 实 
现 的 。 这 些 单个 位 电路 的 输出 用 一 个 AND 门 连 起 来 ， 形 成 了 这 个 电路 的 输出 。 





a) 位 级 实现 b) 字 级 抽象 
图 4-12” 字 级 相等 测试 电路 。 当 字 A 的 每 一 位 与 字 B 中 相应 的 位 均 相 等 时 ， 输出 等 于 1。 字 级 相等 是 
HCL 中 的 一 个 操作 


在 HCL 中， 我 们 将 所 有 字 级 的 信号 都 声明 为 int， 不 指定 字 的 大 小 。 这 样 做 是 为 了 简单 。 
在 全 功能 的 硬件 描述 语言 中 ， 每 个 字 都 可 以 声明 为 有 特定 的 位 数 。HCL 允许 比较 字 是 否 相等 ， 
因此 图 4-12 所 示 的 电路 的 函数 可 以 在 字 级 上 表达 成 : 


bool Eq = (A == B) ; 


这 里 参数 入 和 B 是 int 型 的 。 让 局 我 人 会 用 各 和 甫 证 由 样 的 语法 习惯 ，“=” 表 示 赋 值 ， 而 
二 =” 是 相等 运算 符 。 

如 图 4-12 中 右边 所 示 ， 在 画 字 级 电路 的 时 候 ， 我 们 用 中 等 粗 度 的 线 来 表示 携带 字 的 每 个 位 
的 线路 ， 而 用 虚线 来 表示 布尔 信号 结果 。 
区号] 练习 题 4.9 假设 你 用 练习 题 4.8 中 的 异 或 电路 而 不 是 位 级 的 相等 电路 来 实现 一 个 字 级 的 相等 电路 。 设 

计 一 个 32 位 字 的 相等 电路 需要 32 个 字 级 的 异 或 电路 ， 另 外 还 要 两 个 逻辑 门 。 

图 4-13 是 字 级 的 多 路 复 用 器 电路 。 这 个 电路 根据 控制 输入 位 s， 产 生 一 个 32 位 的 字 Out， 
等 于 两 个 输入 字 A 或 者 B 中 的 一 个 。 这 个 电路 由 32 个 相同 的 子 电路 组 成 ， 每 个 子 电路 的 结构 都 
类 似 于 图 4-11 中 的 位 级 多 路 复 用 器 。 不 过 这 个 字 级 的 电路 并 没有 简单 地 复制 32 次 位 级 多 路 复 用 
器 ， 它 只 产生 一 次 !s, 然后 在 每 个 位 的 地 方 都 重复 使 用 它 已 ， 从 而 减少 反 相 器 或 非 | ] (inverters) 
的 数量 。 z 
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处 理 器 中 会 用 到 很 多 种 多 路 复 用 器 。 使 得 我 们 能 根据 某 些 控制 条 件 ， 从 许多 源 中 选 出 一 个 
字 。 在 HCL 多 路 复 用 函数 是 用 情况 表达 式 《case FIO 来 描 述 的 。 情 况 表 达 式 的 通用 
格式 如 下 : 


[ 
select.l] : expr.l 
select2 : expr2 


selectk : epi 
] 


这 个 表达 式 包含 系列 情况 ， 每 种 情况 i 都 有 一 个 布尔 表达 大 式 select; ,和 一 个 整数 表达 大 式 expr;， 前 
者 表明 什么 时 候 该 选择 这 种 情况 ， 后 者 指明 的 是 得 到 的 值 。 

同 C 语言 的 switch 语句 不 同 ， 我 们 不 要 求 不 同 的 选择 表达 式 之 间 互 斥 。 从 逻辑 上 讲 ， 
些 选择 表达 式 是 顺序 求 值 的 ， 且 第 一 个 求 值 为 1 的 情况 会 被 选中 。 例如 ， 图 4-13 0 
复 用 器 用 HCL 来 描述 就 是 : 


int Out 


中 
mi 


co 
: B; 


二 Nn 


] ; 


在 这 段 代码 中 ， 第 二 个 选择 表达 式 就 是 1， 表 明 如 果 前 面 没 有 情况 被 选中 ， 那 就 选择 这 种 情 
况 。 这 是 HCL 中 一 种 指定 默认 情况 的 方法 。 几 乎 所 有 的 情况 表达 式 都 是 以 此 结尾 的 。 





out 





a ) 位 级 实现 z b ) 字 级 抽象 
图 4-13 字 级 多 路 复 用 器 电路 。 当 控制 信号 s 为 1 时 ， A 
z 情况 《case》 表 达 式 来 描述 多 路 复 用 器， 


”允许 不 互 尺 的 选择 表达 式 使 得 HCL 代码 的 可 读 性 更 好 。 实 际 的 硬件 多 路 复 用 器 的 信号 必 
须 互 厅 ， 它 们 要 控制 哪个 输入 字 应 该 锌 传送 到 输出 ， 就 像 图 4-13 中 的 信号 s 和 !s。 要 将 一 个 
HCL 情况 表达 式 翻 译 成 硬件 ， 边 辑 合 成 程序 需要 分 析 选 择 表 达 式 集合 ， 并 解决 任何 可 能 的 冲突 ， 
确保 只 有 第 一 个 满足 的 情况 才 会 被 选中 。 


之 4 茧 处理 器 余天 绪 芍 247 


选择 表达 式 可 以 是 任意 的 布尔 表达 式 ， 可 以 有 任意 多 的 情况 。 这 就 使 得 情况 表达 式 能 描述 带 
复杂 选择 标准 的 、 多 种 输入 信号 的 块 。 例 如 ， 考 虑 图 4-14 中 所 示 的 四 路 复 用 器 的 图 。 这 个 电路 
根据 控制 信号 sl 和 s0， 从 4 个 输入 字 A、B、C 和 D 中 选择 一 个 ， 将 控制 信号 看 作 一 个 两 位 的 
二 进 制 数 。 我 们 可 以 用 HCL 来 表示 这 个 电路 ， 用 布尔 表达 式 描 述 控制 位 模式 的 不 同 组 合 ; 


int Out4 = [ 
Isil && 1sO : A; # 00 
lsil : B; # 01 
1SO : C; # 10 
1 : D; # i1 





| Out4 


中 
浊 
加 


右边 的 注释 〈 任 何以 # 开头 到 行 尾 结束 的 文字 都 是 注释 ) 表 图 4 .14 和 控制 信 


明了 sl 和 s0 的 什么 组 合 会 导致 该 种 情况 会 被 选中 。 可 以 看 号 sl 和 s0 的 不 同 组 
到 选择 表达 式 有 时 可 以 简化 ， 因 为 只 有 第 一 个 匹配 的 情况 才 会 合 决定 了 娜 个 数据 办 
被 选中 。 例 如 ， 第 二 个 表达 式 可 以 写成 !s1， 而 不 用 写 得 更 完 入 会 被 传送 到 输出 


整 !slg&s0， 因 为 另 一 种 可 能 sl 等 于 0 已 经 出 现在 了 第 一 个 选 
择 表达 式 中 了 。 类 似 地 ， 第 三 个 表达 式 可 以 写作 !s0， 而 第 四 个 可 以 简单 地 写成 1。 
来 看 最 后 一 个 例子 ， 假 设 我 们 想 设 计 一 个 逻辑 电路 来 找 一 组 字 A、B 和 C 中 的 最 小 值 ， 如 下 图 所 示 : 





用 HCL 来 表达 就 是 : 


int Min3 = [ 
A<=B&& A <=C : A; 
B <=A&&B <=C: B; 
1 Cs 


ay 练习 题 4.10 ” 写 一 个 电路 的 HCL 代码， 对 于 输入 字 A、B 和 C， 选 择 中 间 值 。 也 就 是 ， 输 出 等 于 三 个 
输入 中 居于 最 小 值 和 最 大 值 之 间 的 那个 字 。 

组 合 逻辑 电路 可 以 设计 成 在 字 级 数据 上 执行 许多 不 同类 型 的 操作 。 具体 的 设计 已 经 超出 了 
我 们 讨论 的 范围 。 算 术 / 远 辑 单元 (ALU) 是 一 种 很 重要 的 组 合 电路 ， 图 4-15 是 它 的 一 个 抽象 
图 示 。 这 个 电路 有 三 个 输入 : 标号 为 A 和 B 的 两 个 数据 输入 ， 以 及 一 个 控制 输入 。 根 据 控 制 输 
人 的 设置 ， 电 路 会 对 数据 输入 执行 不 同 的 算术 或 逻辑 操作 。 可 以 看 到 ， 这 个 ALU 中 的 四 个 操作 
对 应 于 Y86 指令 集 支 持 的 四 种 不 同 的 整数 操作 ， 而 控制 值 和 这 些 操作 的 功能 码 相 对 应 〈 图 4-3 )。 
我 们 还 注意 到 减法 的 操作 数 顺 序 ， 是 输入 B 减 去 输入 A。 之 所 以 这 样 做 ， 是 为 了 使 这 个 顺序 与 
subl Ee 顺序 一 致 。 








所 ei i , th 
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图 4-15 算术 / 逻辑 单元 (ALU). 根据 数 输入 的 设置 该 电路 会 执行 四 种 算术 和 带 辑 运算 中 的 一 种 
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4.2.4” 集 合 关系 

在 处 理 器 设计 中 ， 很 多 时 候 都 需要 将 一 个 信号 与 许多 可 能 匹配 的 信号 做 比较 ， 以 此 来 检测 正 
在 处 理 的 某 个 指令 代码 是 否 属于 某 一 类 指令 代码 。 下 面 来 看 一 个 简单 的 例子 ， 假 设想 从 一 个 两 位 
信号 code 中 选择 高 位 和 低位 ， 来 为 图 4-14 中 的 四 路 复 用 器 产生 信号 sl 和 s0， 如 下 图 所 示 : 





在 这 个 电路 中 ， 两 位 的 信号 code 就 可 以 用 来 控制 对 4 个 数据 字 A、B、c 和 D 做 选择 。 根 
据 可 能 的 code 值 ， NA s1 和 s0 让 


bool si = code == 2 || code == 3; 


bool 80 = code == 1 || code == 3; 


还 有 一 种 更 简洁 的 方式 来 表示 这 样 的 属性 当 code 在 集合 {2, 3} 中 sl 为 1， 而 code 在 
集合 {1 3} 中 s0 为 1 


bool si = code in { 2, 3 }; 
bool s0 = code in { 1, 3 }; 
判断 集合 关系 的 通用 格式 是 : 
iexpr in {iexpri1, iexpr>, ..., iexpr')} 


这 里 被 测试 的 值 iexpr 和 竺 匹配 的 值 iexpr, ~ iexpri 都 是 整数 表达 式 。 
4.2.5 ”存储 器 和 时 钟 : 
组 合 电路 从 本 质 上 讲 ， 不 存储 任何 信息 。 它 们 只 是 简单 地 响应 输入 信和 号， 产生 等 于 输入 的 某 
个 函数 的 输出 。 为 了 产生 时 序 电 路 (sequential circuit)， 也 就 是 有 状态 并 且 在 这 个 状态 上 进行 计 
算 的 系统 ， 我 们 必须 引入 按 位 存储 信息 的 设备 。 存 储 设备 都 是 由 同一 个 时 钟 控制 ， 时 钟 是 一 个 周 
期 性 信 号 ， 决 定 什么 时 候 要 把 新 值 加 载 到 设备 中 。 考 虑 两 类 存储 器 设备 : . 
。 时钟 寄 存 器 (简称 和 寄存器) 存储 单个 位 或 字 。 时 钟 信号 控制 寄存 器 加 载 输 入 值 ， 
。 随机 访问 存储 器 (简称 存储 器 ) 存储 多 个 字 ， 用 地 址 来 选择 该 读 或 该 写 哪 个 字 。 随 机 访问 
存储 器 的 例子 包括 : 1) 处 理 器 的 虚拟 存储 器 系统 ， 硬 件 和 操作 系统 软件 结合 起 来 使 处 理 
”器 可 以 在 一 个 很 大 的 地 址 空间 内 访问 任意 的 字 ; 2) 寄存 器 文件 ， 在 此 ， 寄 存 器 标识 符 作 
为 地 址 。 在 IA32 或 Y86 处 理 器 中 ， 寄 存 器 文件 有 8 个 程序 寄存 器 (Seax、%ecx 等 )。 
正如 我 们 看 到 的 那样 ， 在 说 到 硬件 和 机 器 级 编程 时 ,“ 寄 存 器 ”这 个 词 是 两 个 有 细微 差别 的 
事情 。 在 硬件 中 ， 寄 存 器 直接 将 它 的 输入 和 输出 线 连接 到 电路 的 其 他 部 分 。 在 机 器 级 编程 中 ， 寄 
存 器 代表 的 是 CPU 中 为 数 不 多 的 可 寻 址 的 字 ， 这 里 的 地 址 是 寄存 器 ID。 这 些 字 通 常 都 存在 寄存 
器 文件 中 ， 虽 然 我 们 会 看 到 硬件 有 时 可 以 直接 将 一 个 字 从 一 个 指令 传送 到 另 一 个 指令 ， 以 避免 先 
写 寄存 器 文件 再 读 出 来 的 延迟 。 需 要 避免 歧义 时 ， 我 们 会 分 别称 呼 这 两 类 寄存 器 为 “硬件 寄存 
器 ”和 “程序 寄存 器 ”。 
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图 4-16 更 详细 地 说 明了 一 个 硬件 寄存 器 以 及 它 是 如 何 工 作 的 。 大 多 数 时 候 ， 寄 存 器 都 保持 
在 稳定 状态 (用 x 表 示 )， 产 生 的 输出 等 于 它 的 当前 状态 。 信 号 沿 着 寄存 器 前 面 的 组 合 逻 辑 传 
播 ， 这 时 ， 产 生 了 一 个 新 的 寄存 器 输入 (用 y 表示 )， 但 只 要 时 钟 是 低 电 位 的 ， 二 
仍然 保持 不 变 。 当 时 钟 变 成 高 电位 的 时 候 ， 输 入 信号 就 加 载 到 寄存 器 中 ， 成 为 下 一 个 状态 y， 

到 下 一 个 时 钟 上 升 沿 ， 这 个 状态 就 一 直 是 寄存 器 的 新 和 输出。 关键 是 寄存 器 是 作为 电路 不 人 
的 组 合 逻 辑 之 间 的 屏障 。 每 当 每 个 时 钟 到 达 上 升 沿 时 ， 值 才 会 从 寄存 器 的 输入 传 送 到 和 输出。 我 们 
的 Y86 处 理 器 会 用 时 钟 寄存 器 保存 程序 计数 器 (PC)， 条 件 代 码 〈CC) 和 程序 状态 (Stat)。 





图 4-16 坷 存 器 操作 。 寄存 器 输出 会 _ 直 保持 在 当前 寄存 器 状态 上 ， 直到 时 钟 信号 上 升 。 当时 钟 上 升 
时 ， 寄 存 器 输入 上 的 值 会 成 为 新 的 寄存 器 状态 


下 面 的 图 展示 了 一 个 典型 的 寄存 器 文件 : 





时 钟 


寄存 器 文件 有 两 个 读 闯 口 (A 和 了 B)， 还 有 一 个 写 总 口 (W)。 这 样 一 个 多 端口 随机 访问 存储 
器 允许 同时 进行 多 个 读 和 写 操作 。 图 中 所 示 的 寄存 器 文件 中 ， 电 路 可 以 读 两 个 程序 寄存 器 的 值 ， 
同时 更 新 第 三 个 寄存 器 的 状态 。 每 个 端口 都 有 一 个 地 址 输入 ， 表 明 该 选择 哪个 程序 寄存 器 ， 另 外 
还 有 一 个 数据 输出 或 对 应 该 程序 寄存 器 的 输入 值 。 地 址 是 用 图 4-4 中 编码 表示 的 寄存 器 标识 符 。 
两 个 读 端 口 有 地 址 输入 srcA 和 srcB (“source A” 和 “source B” 的 缩写 ) 和 数据 输出 valA 和 
valB (“value A” 和 “value B” 的 缩写 )。 写 端口 有 地 址 输入 dstW (“destination W” 的 缩写 )， 
以 及 数据 输入 valW (“value W” 的 缩写 )。 

虽然 寄存 器 文件 不 是 组 合 电路 ， 因 为 它 有 内 部 存储 。 不 过 ， 在 我 们 的 实现 中 ， 从 寄存 器 文件 
读数 据 就 好 像 它 是 一 个 以 地 址 为 输入 、 数 据 为 输出 的 一 个 组 合 逻 辑 块 。 当 srcA 或 srcB 被 设 成 
某 个 寄存 器 ID 时 ， 在 一 段 延迟 之 后 ， 存 储 在 相应 程序 寄存 器 的 值 就 会 出 现在 valR 或 valB 上 。 
例如 ， 将 srcA 设 为 3， 就 会 读 出 程序 寄存 器 sebx 的 值 ， 然 后 这 个 值 就 会 出 现在 输出 valA 上 。 

回 寄存 器 文件 写 人 字 是 由 时 钟 信号 控制 的 ， 控 制 方式 类 似 于 将 值 加 载 到 时 钟 寄 存 器 。 每 次 时 
钟 上 升 时 ， 输 入 valWw 上 的 值 会 被 写 人 输入 dstw 上 的 寄存 器 ID 指示 的 程序 寄存 器 。 当 qstW 
设 为 特殊 的 ID 值 0xF 时 ， 不 会 写 任 何 程序 寄存 器 。 由 于 寄存 器 文件 既 可 以 读 也 可 以 写 ， 一 个 很 
自然 的 问题 就 是 “如 果 我 们 试图 同时 读 和 写 同一 个 寄存 器 会 发 生 什 么 ? ”答案 简单 明了 : 如 果 更 
新 一 个 寄存 器 ， 同 时 在 读 端 口上 用 同一 个 寄存 器 ID， 我 们 会 看 到 一 个 从 旧 值 到 新 值 的 变化 。 当 
我 们 把 这 个 寄存 器 文件 加 入 到 处 理 器 设计 中 ， 我 们 保证 会 考虑 到 这 个 属性 的 。 

处 理 器 有 一 个 随机 访问 存储 器 来 存储 程序 数据 ， 如 下 图 所 示 : 
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地 址 数据 输入 


这 个 存储 器 有 一 个 地 址 输入 ， 一 个 写 的 数据 输入 ， 以 及 一 个 读 的 数据 输出 。 同 寄存 器 文件 
一 样 ， 从 存储 器 中 读 的 操作 方式 类 似 于 组 合 逻 辑 : 如 果 我 们 在 输入 address 上 提供 一 个 地 址 ， 
并 将 write 控制 信号 设置 为 0， 那么 经 过 一 些 延 开 之 后 ， 存 储 在 那个 地 址 上 的 值 会 出 现在 输出 
data 上 。 如 果 地 址 超出 了 范围 ，error 信号 会 设置 为 1， 否则 就 设置 为 0。 写 存储 器 是 由 时 钟 
控制 的 : 我 们 将 address 设置 为 期 望 的 地 址 ， 将 aata in 设置 为 期 望 的 值 ， 而 write 设置 为 
1。 然 后 当 我 们 控制 时 钟 时 ， 只 要 地 址 是 合法 的 ， 就 会 更 新 存储 器 中 指定 的 位 置 。 对 于 读 操 作 来 
说 ， 如 果 地 址 是 不 合法 的 ，error 信和 号 会 被 设置 为 1。 这 个 信号 由 组 合 逻 辑 产生 ， 因 为 所 需要 的 
边界 检查 纯粹 就 是 地 址 输入 的 函数 ， 不 涉及 保存 任何 状态 。 


现实 的 存储 器 设计 

真实 微 处 理 器 中 的 存储 器 系统 比 我 们 在 设计 中 假想 的 这 个 简单 的 存储 器 要 复杂 得 多 。 它 是 由 
几 种 形式 的 硬件 存储 器 组 成 的 ， 包 括 几 种 随机 访问 存储 器 和 磁盘 ， 以 及 管理 这 些 设 备 的 各 种 硬件 
和 软件 机 制 。 存储器 系统 的 设计 和 特点 在 第 6 章 中 描述 。 

不 过 ， 我 们 简单 的 存储 器 设计 可 以 用 于 较 小 的 系统 ， 它 提供 了 更 复杂 系统 的 处 理 器 和 存储 器 
之 间接 口 的 抽象 。 


我 们 的 处 理 器 还 包括 另外 一 个 只 读 存 储 器 ， 用 来 读 指 令 。 在 大 多 数 实际 系统 中 ， 这 两 个 存储 
器 被 合并 为 一 个 具有 双 端 口 的 存储 器 : 一 个 用 来 读 指 令 ， 另 一 个 用 来 读 或 者 写 数据 。 


4.3 Y86 的 顺序 实现 


现在 已 经 有 了 实现 Y86 处 理 器 所 需要 的 部 件 。 首 先 ， 我 们 讲 一 个 SEQ(“sequential ”顺序 的 ) 
处 理 器 。 每 个 时 钟 周期 上 ，SEQ 执行 处 理 一 条 完整 指令 所 需 的 所 有 步 又。 不过， 这 需要 一 个 很 
长 的 时 钟 周 期 时 间 ， 因 此 时 钟 周 期 频率 会 低 到 不 可 接受 。 我 们 开发 SEQ 的 目标 就 是 提供 实现 最 
终 目 标的 第 一 步 ， 我 们 的 最 终 目 标 是 实现 一 个 高 效 的 、 流 水 线 化 的 处 理 器 。 
4.3.1 将 处 理 组织 成 阶段 
通常 ， 处 理 一 条 指令 包括 很 多 操作 。 将 它们 组 织 成 某 个 特殊 的 阶段 序列 ， 即 使 指令 的 动作 差 
异 很 大 ， 但 所 有 的 指令 都 遵循 统一 的 序列 。 每 一 步 的 具体 处 理 取 决 于 正在 执行 的 指令 。 创 建 这 样 
一 个 框架 ， 我 们 便 能 够 设计 一 个 能 充分 利用 硬件 的 处 理 器 。 下 面 是 关于 各 个 阶段 以 及 各 阶段 内 执 
行 操作 的 简略 描述 : 
。 取 指 (fetch) : 取 指 阶段 从 存储 器 读 取 指令 字 节 ， 地 址 为 程序 计数 器 〈PC) 的 值 。 从 指令 
中 抽取 出 指令 指示 符 字 节 的 两 个 四 位 部 分 ， 称 为 jcode (指令 代码 ) 和 ifun (指令 功 
”能 )。 它 可 能 取出 一 个 寄存 器 指示 符 字 节 ， 指 明 一 个 或 两 个 寄存 器 操作 数 指示 符 rA 和 rB。 
它 还 可 能 取出 一 个 四 字 节 常数 字 valC。 它 按 顺 序 方式 计算 当前 指令 的 下 一 条 指令 的 地 址 
valP。 也 就 是 说 ，valP 等 于 PC 的 值 加 上 已 取出 指令 的 长 度 。 
。 译 码 〈decode) : 译 码 阶段 从 寄存 器 文件 读 入 最 多 两 个 操作 数 ， 得 到 值 valA 和 /或 valB。 
通常 ， 它 读 入 指令 rA 和 rB 字段 指明 的 寄存 器 ， 不 过 有 些 指令 是 读 寄存 器 $esp 的 。 
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。 执 行 (execute) : 在 执行 阶段 ， 算 术 /逻辑 单元 (ALU) 要 么 执行 指令 指明 的 操作 〈( 根 


据 ifun 的 值 )， 计 算 存 储 器 引用 的 有 效 地 址 ， 要 么 增加 或 减少 栈 指针 。 得 到 的 值 我 们 称 


为 valE。 在 此 ， 也 可 能 设置 条 件 码 。 对 一 条 跳 转 指令 来 说 ， 这 个 阶段 会 检验 条 件 码 和 

(ifun 给 出 的 ) 分 支 条 件 ， 看 是 不 是 应 该 选择 分 支 。 

“ 访 存 (memory) : 访 存 阶段 可 以 将 数据 写 人 存储 器 ， 或 者 从 存储 器 读 出 数据 。 读 出 的 值 为 

valM,。 

。 写 回 (write back) : 写 回 阶段 最 多 可 以 写 两 个 结果 到 寄存 器 文件 。 

更 新 PC (PC update) ; 将 PC 设置 成 下 一 条 指令 的 地 址 。 

处 理 器 无 限 循环 ， 执 行 这 些 阶 段 。 在 我 们 简化 的 实现 中 ， 发 生 任 何 异 常 时 ， 处 理 器 就 会 停 
止 : 它 执行 nalt 指令 或 非法 指令 ， 或 者 它 试 图 读 或 者 写 非法 地 址 。 在 更 完整 的 设计 中 ， 处 理 器 
会 进入 异常 处 理 模 式 ， 开 始 执 行 由 异常 的 类 型 决定 的 特殊 代码 。 

从 前 面 的 讲述 可 以 看 出 ， 执 行 一 条 指令 是 需要 进行 很 多 处 理 的 。 我 们 不 仅 必须 执行 指令 所 表 
明 的 操作 ， 还 必须 计算 地 址 、 更 新 栈 指 针 ， 以 及 确定 下 一 条 指令 的 地 址 。 幸 好 每 条 指令 的 整个 流 
程 都 比较 相似 。 因 为 我 们 想 使 硬件 数量 尽 可 能 的 少 ， 并 且 最 终 把 它 映 射 到 一 个 二 维 的 集成 电路 芯 
片 的 表面 ， 在 设计 硬件 时 ， 一 个 非常 简单 而 一 致 的 结构 是 非常 重要 的 。 降 低 复杂 度 的 一 种 方法 是 
让 不 同 的 指令 共享 尽量 多 的 硬件 。 例 如 ， 我 们 的 每 个 处 理 器 设计 都 只 含有 一 个 算术 / 逻辑 单元 ， 
根据 所 执行 的 指令 类 型 的 不 同 ， 它 的 使 用 方式 也 不 同 。 在 硬件 上 复制 逻辑 块 的 成 本 比 软件 中 有 重 
复 代码 的 成 本 大 得 多 。 而 且 在 硬件 系统 中 处 理 许多 特殊 情况 和 特性 要 比 用 软件 来 处 理 困 难得 多 。 

我 们 面临 的 一 个 挑战 是 将 每 条 不 同 指令 所 需要 的 计算 放 人 到 上 述 那个 通用 框架 中 。 我 们 会 使 
用 图 4-17 中 所 示 的 代码 来 描述 不 同 Y86 指令 的 处 理 。 图 4-18 一 图 4-21 表 描 述 了 不 同 Y86 指令 
在 各 个 阶段 是 怎样 处 理 的 。 很 值得 仔细 研究 一 下 这 些 表 。 表 中 的 这 种 格式 很 容易 映射 到 硬件 。 表 
中 的 每 一 行 都 描述 了 一 个 信号 或 存储 状态 的 分 配 (用 分 配 操 作 一 来 表示 )。 阅 读 时 可 以 把 它 看 成 
是 从 上 至 下 的 顺序 求 值 。 当 我 们 将 这 些 计算 映射 到 硬件 时 ， 会 发 现 其 实 并 不 需要 严格 按照 顺序 来 
执行 这 些 求 值 。 


: 30f209000000 irmov] $9, %edx 

: 30f315000000 irmov] $21, webx 

: 6123 subl Wedx, hebx # subtract 

: 30f480000000 irmov] $128,%hesp # Problem 4.11 

: 404364000000 rmmov] hesp, 100(%ebx) # store 

: a02f Push1 %edx # push 

: bOOf popl weax # Problem 4.12 

: 7328000000 je done # Not taken 

: 8029000000 call proc # Problem 4.16 
done: 


: 00 halt 
proc: 
; 90 ret # Return 


图 4-17 YY86 指令 序列 示例 。 我 们 会 跟踪 这 些 指 令 通 过 各 个 阶段 的 处 理 





图 4-18 是 对 OP1 (整数 和 你 辑 运算 )、rrmovl1 (寄存 器 一 寄存 器 传送 ) 和 irmov1 (立即 数 一 
寄存 器 传送 ) 类 型 的 指令 所 需 的 处 理 。 我 们 先 来 考虑 整数 操作 。 回 顾 图 42， 可 以 看 到 我 们 小 心地 选 
择 了 指令 编码 ， 这 样 四 个 整数 操作 (addl、subl、andl 和 xorl) 都 有 相同 的 icoqe 值 。 我 们 可 
以 以 相同 的 步 又 顺序 来 处 理 它们 ， 除 了 ALU 计算 必须 根据 ifun 中 编码 的 具体 的 指令 操作 来 设 定 。 

整数 操作 指令 的 处 理 遵循 上 面 列 出 的 通用 模式 。 在 取 指 阶段 ， 不 需要 常数 字 ， 所 以 ValP 就 
计算 为 PC+2。 在 译 码 阶段 ， 我 们 要 读 两 个 操作 数 。 在 执行 阶段 ， 它 们 和 功能 指示 符 ifun 一 起 


252 浸 一 宴 分 在 序 红 攀 和 执行 


再 提供 给 ALU， 这 样 一 来 valE 就 成 为 了 指令 结果 。 这 个 计算 是 用 表达 式 valB OP valA 来 表 
达 的 ， 这 里 OP 代表 ifun 指定 的 操作 。 要 注意 两 个 参数 的 顺 顺序 与 Y86 (和 IA32) 
的 习惯 是 一 臻 的。 例如， 指令 sub1 seax，%edx 计算 的 是 R[%edx] Re seax] 的 值 。 这 些 指 
令 在 访 存 阶段 什么 也 不 做 ， 而 在 写 回 阶 段 ，valE eA rB， 然 后 PC 设 为 valP， 整 个 
指令 的 执行 就 结束 了 。 


icode:ifun <— Mi[PC] | icode:ifun 和 二 Mi[PC] | icode:ifun <«— Mi[PC 

rA:rB <— Mi[PC+1] rA:rB <— Mi[PC+1] rA:rB <— Mi[PC+1] 
valC <— Ma[PC + 2] 

valP <-PC+6 

























valP < 二 PC 十 2 valP 二 PC 十 2 


























译 码 valA <— R[rA] valA <— RI[rA] 
valB <— R[rB] 
执行 valE <— valB OP valA valE <— 0 + valA valf <— 0+valC 
Set CC | 
访 存 | 
写 回 R[rB] <— valE R[rB] <— valE R[rB] <— valE 








PC < valp PC 二 valp 





PC <— valPp 


图 4-18 Y86 指令 OPl1、rrmovl 和 irmov1l 在 顺序 实现 中 的 计算 。 这 些 指令 计算 了 一 个 值 ， 并 将 结 
果 存 放 在 寄存 器 中 。 符 号 icode :ifun 表明 指令 字 节 的 两 个 组 成 部 分 ， 而 rA: rrB 表明 寄存 
器 指示 符 字 节 的 两 个 组 成 部 分 。 符 号 M,[x] 表示 访 问 ( 读 或 者 写 ) 存储 器 位 置 x 处 的 一 个 字 
节 ， 而 Ms [x] 表示 访问 四 个 字 节 


跟踪 subl 指令 的 执行 
作为 一 个 例子 ， 让 我 们 来 看 看 一 条 subl 指令 的 处 理 过 程 ， 这 条 指令 是 图 4-17 所 示 目 标 代 
ey 3 行 中 的 subl 指令 。 可 以 看 到 前 面 两 条 指令 分 别 将 寄存 器 $edx 和 %ebx 初始 化 成 9 和 
1。 我 们 还 能 看 到 指令 位 于 地 址 0x00c， 由 两 个 字 节 组 成 ， 值 分 别 为 0x61 和 0x23。 这 条 指令 
a a ily 左边 列 出 了 处 理 一 个 OP1 指令 的 通用 的 规则 《图 4-18)， 而 右边 列 
出 的 是 对 这 条 具体 指令 的 计算 。 z 
\ 
subl %edx, %ebx 


icode:ifun 二 Mi[PC] | icode:ifun <— Mi[Ox00c]=6: 
rA:rB 二 Mi[PC+1] rA:rB < 二 Mi[O0x00d] = 2:3 
valP < 二 PC 十 2 valP <— Ox00c + 2= 0x00e 


valA <— R[rA] valA «~— R[%edx]=9 
valB <— RI[rB] valB < 二 R[%ebx|] = 21 


valE <— valB OP valA valE <— 21 一 9=12 
Set CC ZF 二 0,SF 二 0,OF 二 0 


R[rB] <— valE _R[%ebx] -valE=12 





PC < valP | PC «valp = ox0oe 
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这 个 跟踪 表明 ， 我 们 达到 了 理想 的 效果 ， Ny sebx 设 成 了 12， i 了 0， 


而 PC 加 了 2。 


执行 rrmov1 指令 和 执行 算术 运算 类 似 。 不 过 ， 不 需要 取 第 二 个 寄存 器 操作 数 。 我 们 将 
ALU 的 第 二 个 输入 设 为 0， 先 把 它 和 第 一 个 操作 数 相 加 ， 得 到 valE=valA， 然 后 再 把 这 个 值 写 
到 寄存 器 文件 。 对 irmov1l 的 处 理 与 此 类 似 ， 除 了 ALU 的 第 一 个 输入 为 常数 值 valC。 另 外 ， 
因为 是 长 指令 格式 ， 对 于 irmov1， 程 序 计 数 器 必须 加 6。 所 有 这 些 指 令 都 不 改变 条 件 码 。 





处 理 情况 


填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 4 行 上 的 irmovl 指令 的 


i. V, rB 










2 $esp 


icode: ifumo—M, [PC] 





rA: zBt 一 M， [PC+1] 






valCt+ M， [PC+2] 







ee 


时 一 
更 新 PC PC 一 valP 





这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 


图 4-19 给 出 了 存储 器 读 写 指令 rmmov1 和 mrmov1l 所 需要 的 处 理 。 基 本 流程 也 和 前 面 的 一 
样 ， 不 过 是 用 ALU 来 加 valc 和 valB， 得 到 存储 器 操作 的 有 效 地 址 〈 偏 移 量 与 基 址 寄存 器 值 
之 和 )。 在 访 存 阶段 ， 会 将 寄存 器 值 valA 写 到 存储 器 ， 或 者 从 存储 器 中 读 出 va1LM。 


mrmovl D(zB) ,rA 


icode:ifuneM [PC] | icode:ifune™M [PC] 
rA:rBoM [PC+1] rA:rBo—M [PC+1] 
ValCt-M, [PC+2] valCe~M, [PC+2] 
valP*—PC+6 ValLP+ -PC+6 


valA—R [YA] 
valB<—R[rB] valB—R [rB] 


ValLE< valLB+ValC ValLE4 一 valLB+ValLC 


M, [valE] <—valA valMeo—M, [valE] 


R{rA]<—valM 


PC<—valP PC+4 一 vValLP 





图 4-19 Y86 指令 rmmovl 和 mrmov1l 在 顺序 实现 中 的 计算 。 这 些 指令 读 或 者 写 存储 器 
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跟踪 rmmov1 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 5 行 rmmov1l 指令 的 处 理 情况 。 可 以 看 到 ， 前 面 的 指 
令 已 将 寄存 器 %$esp 初始 化 成 了 128， 而 $ebx 仍然 是 subl 指令 (第 3 行 ) 算出 来 的 结果 12。 
我 们 还 可 以 看 到 ， 指 令 位 于 地 址 0x5014， 有 6 个 字 节 。 前 两 个 的 值 为 0x40 和 0x43， 后 四 个 是 
数字 0x00000064 十进制 数 100) 按 字 节 反 过 来 得 到 的 数 。 各 个 阶段 的 处 理 如 下 : 


icode:ifun «— M1[PC] | icode:ifun <— Mi[0x014]=4:0 
rA:rB < 二 Mi[PC 二 了 ]] rA:rB <— Mi[0x015]=4:3 
valC <— M4[PC 十 2] valC <— M4[Ox016]= 100 

valpP 二 PC 二 6 valP <— Ox014 + 6= 0x0ia 


. valA <«— R[rA] valA <— RI%esp] = 128 
valB <— R[rB] valB <«— R[%ebx] = 12 


valE <— valB + valC valE <— 12 十 100= 112 


M4[valE] < valA M4[112] <— 128 


PC <— valp PC <— Ox01a 
跟踪 记录 表明 ， 这 条 指令 的 效果 就 是 将 128 写 入 存储 器 地 址 112， 并 将 PC 加 6。 


图 4-20 给 出 了 处 理 pushl 和 popl 指令 所 需 的 步骤 。 它 们 可 以 算是 最 难 实现 的 Y86 指令 ， 
因为 它们 既 涉 及 访问 存储 器 ， 又 要 增加 或 减少 栈 指针 。 虽 然 这 两 条 指令 的 流程 比较 相似 ， 但 是 它 


们 还 是 有 很 重要 的 区 别 。 


icode:ifun 二 Mi[PC] | icode:ifun <— Mi[PC] 
rA:rB <— Mi[PC 十 妖 rA:rB <— Mi[PC + 站 



















valP < 二 -PC 十 2 valP < 二 -PC 十 2 


valA <— R[rA] 
valB <— R[%esp] 










valA <— R[%esp] 
valB <— R[%esp] 








valE <— valB + (一 4) valE <— valB + 4 






M4[valE] <— valA valM <— M4[valA] 





R[%esp] < 二 valE 
R[rA] <— valM 


R[%esp] < valE 






PC <— valP 





PC < valPp 





4-20 ”Y86 指令 pushl 和 pop1l 在 顺序 实现 中 的 计算 。 这 些 指令 将 值 压 人 或 弹出 栈 


pushl 指令 开始 时 很 像 我 们 前 面 讲 过 的 指令 ， 但 是 在 译 码 阶段 ， 用 sesp 作为 第 二 个 寄存 


锣 4 葛 人 处理 器 体 条 绍 枢 255 


器 操作 数 的 标识 符 ， 将 栈 指针 赋值 为 val1B。 在 执行 阶段 ， 用 ALU 将 栈 指 针 减 4。 减 过 4 的 值 就 
是 存储 器 写 的 地 址 ， 在 写 回 阶段 还 会 存 回 到 sespP 中 。 将 valE 作为 写 操作 的 地 址 ， 是 遵循 Y86 
《和 IA32) 的 惯例 ， 也 就 是 在 写 之 前 ，pushl 应 该 先 将 栈 指针 减 去 4， 即使 栈 指 针 的 更 新 实际 上 
是 在 存储 器 操作 完成 之 后 才 进行 的 。 


跟踪 pushl 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 6 行 上 pushl 指令 的 处 理 情况 。 此 时 ， 寄 存 器 $edx 
的 值 为 9， 而 寄存 器 sesp 的 值 为 128。 我 们 还 可 以 看 到 指令 是 位 于 地 址 0x01a， 有 两 个 字 节 ， 
值 分 别 为 0xa0 和 0x28。 各 个 阶段 的 处 理 如 下 : 


具体 


icode:ifun <— Mi[PC] | icode:ifun 和 二 Mi[0Ox01a]=a:0 
rA:rB <— Mi[PC 十 了 rA:rB < Mi[0x01b]= 2:8 


valP < 二 -PC 十 2 valP < 二 - 0x01a 十 2 一 0x0lc 
valA < 二 R[rA] valA 二 R[%edx]=9 

valB <— R[%esp] valB < 二 R[%esp] = 128 

valE <— valB 十 (一 4) valE <— 128 十 (~4) = 124 


MalvalE] <— valA M4[124] «9 


Rf%esp] < valE R[%esp] < 124 





PC <— valPp PC <— OxO1c 
跟踪 记录 表明 ， 这 条 指令 的 效果 就 是 将 esp 设 为 124， 将 9 写 入 地 址 124， 并 将 PC 加 2。 


popl 指令 的 执行 与 pushl 的 执行 类 似 ， 除 了 在 译 码 阶 段 要 读 两 次 栈 指针 以 外 。 这 样 做 看 
上 去 很 多 余 ， 但 是 我 们 会 看 到 让 valA 和 valB 都 存放 栈 指针 的 值 ， 会 使 后 面 的 流程 跟 其 他 的 指 
令 更 相似 ， 增 强 设 计 的 整体 一 致 性 。 在 执行 阶段 ， 用 ALU 给 栈 指 针 加 4， 但 是 用 没 加 过 4 的 原 
始 值 作为 存储 器 操作 的 地 址 。 在 写 回 阶段 ， 要 用 加 过 4 的 栈 指针 更 新 栈 指针 寄存 器 ， 还 要 将 寄存 
器 IA 更 新 为 从 存储 器 中 读 出 的 值 。 用 没 加 过 4 的 值 作为 存储 器 读 地 址 ， 保 持 Y86 (和 IA32) 的 
惯例 ，popl 应 该 首先 读 存储 器 ， 然 后 再 增加 栈 指 针 。 
ES 明 练习 题 4.12 ”填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 7 行 上 的 popl 指令 的 处 

理 情 况 : : 


Re 
he Pop Yoo 


icode:ifun <— MI[PC] 
rA:rB <— MI[PC + 
valP <- PC 十 2 


valA < 二 RI%esp] 
valB < 二 - R[%esp] 





valE <— valB 十 4 


valM <— M4valA] 


R[%esPp] < valE 
RIrA] 二 valM 


PC <«— valPp 
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这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 
本 济 练 习题 4.13 ”根据 图 4-20 中 列 出 的 步 又， 指令 Push1sesp 会 有 什么 样 的 效果 ? 这 与 练习 题 46 中 确 
定 的 Y86 期 望 的 行为 一 致 吗 ? 
放 练 习题 4.14 假设 Popl 在 写 回 阶段 中 的 两 个 寄存 器 写 操作 按照 图 4-20 列 出 的 版 序 进行 
popl Sesp 执行 的 效果 会 是 怎样 的 ? 这 与 练习 题 4.7 中 确定 的 Y86 期 望 的 行为 一 致 吗 ? 
图 4-21 表明 了 三 类 控制 转移 指令 的 处 理 : 各 种 跳 转 、call 和 ret。 可 以 看 到 ， 我 们 能 用 同 
前 面 指令 一 样 的 整体 流程 来 实现 这 些 指令 。 








jXX Dest call Dest 
icode :ifun <— MI[PC] icode :ifun < 二 MI[PC] | icode:ifun < Mi1[PC] 


valC < Ms[PC 二 1] valC < M4[PC+1] 
valP < PC 十 5 valP 二 PC 十 3 valP < 二 -PC 十 1 


valA < 二 R[%esPp|] 
valB <— R[%esp] valB < 二 - R[%esPp|] 


valE <— valB 十 (一 4) valE <— valB + 4 
Cnd < 二 Cond(CC, ifun) 


M4[valE] <— valP : valM <— M4[valA] 
R[%esp] <— valE | R[%esp] < valE 


PCeCnd?valC:valp | PC < valc PC valM 
图 4-21 Y86 指令 jXXx、call 和 ret 在 顺序 实现 中 的 计算 。 这 些 指令 导致 控制 转移 


同 对 整数 操作 一 样 ， 我 们 能 够 以 一 种 统一 的 方式 处 理 所 有 的 跳 转 指令 ， 因 为 它们 只 在 判断 是 
否 要 选择 分 支 的 时 候 不 同 。 除 了 不 需要 一 个 寄存 器 指示 符 字 节 以 外 ， 跳 转 指令 在 取 指 和 译 码 阶段 
都 和 前 面 讲 的 其 他 指令 类 似 。 在 执行 阶段 ， 检 查 条 件 码 和 跳 转 条 件 来 确定 是 否 要 选择 分 支 ， 产 生 
出 一 个 一 位 信号 cnd。 在 更 新 PC 阶段 ， 检 查 这 个 标志 ， 如 果 这 个 标志 为 1， 就 将 PC 设 为 valC 
( 跳 转 目 标 )， 如 果 为 0， 就 设 为 valP《〈 下 一 条 指令 的 地 址 )。 我 们 的 表示 法 x?a: b 类 似 于 C 语 有 
中 的 条 件 表达 式 一 一 当 x 非 零 时 ， 它 等 于 a， 当 x 为 零 时 ， 等 于 b。 : 


跟踪 je 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 8 行 je 指令 的 处 理 情况 。subl 指令 (第 3 行 ) 已 经 
将 所 有 的 条 件 码 都 置 为 了 0， 所 以 不 会 选择 分 支 。 该 指令 位 于 地 址 0x01e， 有 5 第 一 个 
字 节 的 值 为 0x73， 而 剩 下 的 四 个 字 节 是 数字 0x00000028 按 字 节 反 过 来 得 到 的 数 ， 也 就 是 跳 
转 的 目标 。 各 个 阶段 的 处 理 如 下 : 












取 指 icode:ifun <— Mi1[PC] icode :ifun <— M1[0x01e]=7:3 
valC <— Mas[PC+1] valC < Ma[Ox01f] = 0x028 
valP <«—PC+5 valP 二 OxO0ie + 5 = 0x023 














Cnd < 二 Cond(CC, ifun) Cnd < 二 Cond((0, 0, 0), 3) = 





PC < Cnd ? valC : valP PC < 0? 0x028 : 0x023 = 0x02 
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跟 踩 记录 表明 ， 这 条 指令 的 效果 就 是 将 PC 加 5。 


了 练习 题 4.15 ”从 指令 编码 (图 4-2 和 图 4-3) 我 们 可 以 看 出 ， 
rmmov1 指令 是 一 类 更 通用 的 、 包 括 条 件 转 移 在 内 的 指令 的 无 条 
件 版 本 。 请 给 出 你 要 如 何 修改 右面 rrmovl 指令 的 步骤 ， 使 之 
也 能 处 理 6 个 条 件 传 送 指令 。 看 看 jXX 指令 的 实现 (图 4-21) 
是 如 何 处 理 条 件 行为 的 ， 可 能 会 有 所 帮助 。 
指令 call 和 ret 与 指令 pushl 和 popl 类 似 ， 除 了 我 
们 要 将 程序 计数 器 的 值 人 栈 和 出 栈 以 外 。 对 指令 call， 我 们 
要 将 valP， 也 就 是 call 指令 后 紧 跟 着 的 那 条 指令 的 地 址 ， 
压 人 栈 中 。 在 更 新 PC 阶段 ， 将 PC 设 为 va1C， 也 就 是 调用 的 | 
目的 地 。 对 指令 ret， 在 更 新 PC 阶段 ， 我 们 将 valM， 即 从 
2 的 值 ， 赋 值 给 PC。 
司 练 习题 4.16 ”填写 表 的 右边 一 栏 ， 这 个 表 措 
述 的 是 图 4-17 中 目标 代码 第 9 行 call 指令 
的 处 理 情 况 。 
这 条 指令 的 执行 会 怎样 改变 寄存 器 、PC 和 
存储 器 呢 ? 
我 们 创建 了 一 个 统一 的 框架 ， 能 处 理 所 
有 不 同类 型 的 Y86 指令 。 虽然 指令 的 行为 
大 不 相同 ， 但 是 我 们 可 以 将 指令 的 处 理 组 织 
成 6 个 阶段 。 现 在 我 们 的 任务 是 创建 硬件 设 
计 来 实现 这 些 阶 段 ， 并 把 它们 连接 起 来 。 


跟踪 ret 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 
13 行 ret 指令 的 处 理 情 况 。 指 令 的 地 址 是 
0x029， 只 有 一 个 字 节 的 编码 ，0x90。 前 面 的 call 指令 将 %esp 置 为 了 124， a 
0x028 存放 在 了 存储 器 地 址 124 中 。 各 个 阶段 的 处 理 如 下 : 









icode :ifun <— Mi[PC] 
rA:rB <— Mi[PC+1] 
valP <«— PC 十 2 
valA'<- R[rA] 
valE <— 0 + valA 








R[rB] <— valE 
‘PC <— valPp 








通用 
一 


icode :ifun <— Mi1[PC] 








valP «— PC 十 5 






valB «— R[%esp] 








valE <— valB 十 (—4) 


MalvalE] valp 







RI%esp] 二 valE 


PC evalC 





| ifun < 二 Mi[PC] | icode:ifun <— Mi[Ox029]=9:0 


valP «PC+1 valP <— 0x029 + 1= 0x02a 


valA- <«— Rf%esp] valA <— R[%esp] = 124 
valB <— R[%esp] valB < 二 RI%esp| = 124 


valE <— valB+4 valE <— 124 +-+4= 128 


valM <— M4[valA] valM <— M4[124] = 0x028 
R[%esp] < valE R[%esp] < 二 128 





PC < valM | PC < 0x028 
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跟踪 记录 表明 ， 这 条 指令 的 效果 就 是 将 PC 设 为 0x028, halt 指令 的 地 址 。 同 时 也 将 Sesp 


置 为 了 128。 
4.3.2 ”SEQ 硬件 结构 

实现 所 有 Y86 指令 所 需要 的 计算 可 以 
组 织 成 六 个 基本 阶段 : 取 指 、 译 码 、 执 行 、 
访 存 、 写 回 和 更 新 PC。 图 4-22 是 一 个 能 执 
行 这 些 计算 的 硬件 结构 的 抽象 表示 。 程 序 
计数 器 放 在 寄存 器 中 ， 在 图 中 左下 角 ( 标 
明 为 “PC”)。 然 后 ， 信 息 沿 着 线 流动 (多 
条 线 组 合 在 一 起 就 用 宽 一 点 的 灰 线 来 表 
示 )， 先 向 上， 再 同 右 。 同 各 个 阶段 相关 的 
硬件 单元 (hardware unit) 负责 执行 这 些 处 
理 。 在 右边 ， 反 馈线 路 同 下 ， 包 括 要 写 到 
寄存 器 文件 的 更 新 值 ， 以 及 更 新 的 程序 计 
数 器 值 。 正 如 在 4.3.3 节 中 讨论 的 那样 ， 在 
SEQ 中 ， 所 有 硬件 单元 的 处 理 都 在 一 个 时 
钟 周期 内 完成 。 这 张 图 省 略 了 一 些小 的 组 
合 逻 辑 块 ， 还 省 略 了 所 有 用 来 操作 各 个 硬 
件 单 元 以 及 将 相应 的 值 路 由 到 这 些 单元 的 
控制 逻辑 。 稍 后 会 补充 这 些 细节 。 我 们 从 
下 往 上 画 处 理 器 和 流程 的 方法 似乎 有 点 奇 
怪 。 在 开始 设计 流水 线 化 的 处 理 器 时 ， 我 
们 会 解释 这 么 画 的 原因 。 

硬件 单元 与 各 个 处 理 阶 段 相关 联 : 

取 指 : 将 程序 计数 器 寄存 器 作为 地 址 ， 
指令 存储 器 读 取 指令 的 字 节 。PC 增加 器 
(PC incrementer) 计算 valP， 即 增加 了 的 
程序 计数 器 。 

译 码 : 寄存 器 文件 有 两 个 读 端口 A 和 了 B， 
从 这 两 个 端口 同时 读 寄存 器 值 valA 和 valB。 

执行 : 执行 阶段 会 根据 指令 的 类 型 ， 
将 算术 /逻辑 单元 (ALU) 用 于 不 同 的 目 
的 。 对 整数 操作 ， 它 要 执行 指令 所 指定 的 
运算 。 对 其 他 指令 ， 它 会 作为 一 个 加 法 器 
来 计算 增加 或 减少 栈 指针 ， 或 者 计算 有 效 
地 址 ， 或 者 只 是 简单 地 加 0， 将 一 个 输入 传 
递 到 输出 。 








程序 计数 器 

(PC ) i 
写 回 

访 存 


图 4-22 ”SEQ 的 抽象 视图 ， 一 种 顺序 实现 。 
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行 过 程 中 的 信息 处 理 沿 着 顺 时 针 方 向 的 流程 
进行 ， 从 用 程序 计数 器 (PC) 取 指 令 开 始 ， 
如 图 中 左下 角 所 示 


条 件 码 寄存 器 (CC) 有 三 个 条 件 码 位 。ALU 负责 计算 条 件 码 的 新 值 。 当 执行 一 条 跳 转 指令 
时 ， 会 根据 条 件 码 和 跳 转 类 型 来 计算 分 支 信号 Cnd。 
访 存 : 在 执行 访 存 操作 时 ， 数 据 存储 器 恋 出 或 写 人 一 个 存储 器 字 。 指 令 和 数据 存储 器 访问 的 


是 相同 的 存储 器 位 置 ， 但 是 用 于 不 同 的 目的 。 


写 回 : 寄存 器 文件 有 两 个 写 端 口 。 端 口 卫 用 来 写 ALU 计算 出 来 的 值 ， 而 端口 M 用 来 写 从 数 
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据 存储 器 中 读 出 的 值 。 

图 4-23 更 详细 地 给 出 了 实现 SEQ 所 需要 的 硬件 〈 分 析 每 个 阶段 时 ， 我 们 会 看 到 完整 的 细 
节 )。 我 们 看 到 一 组 和 前 面 一 样 的 硬件 单元 ， 但 是 现在 线路 看 得 更 清楚 了 。 这 幅 图 以 及 其 他 的 看 
件 图 ， 都 使 用 以 下 的 画图 惯例 。 

。 浅 灰色 方 框 表示 硬件 单元 。 这 包括 存储 器 、ALU 等 等 。 在 我 们 所 有 的 处 理 器 实现 中 ， 都 会 

使 用 这 一 组 基本 的 单元 。 我 们 把 这 些 单 元 当 作 “ 黑 盒 子 ” 不 关心 它们 的 细节 设计 。 

。 控 制 巡 辑 块 是 用 灰色 圆 角 矩形 表示 的 。 这 些 块 用 来 从 一 组 信号 源 中 进行 选择 ， 或 者 用 来 计 

算 一 些 布尔 函数 。 我 们 会 非常 详细 地 分 析 这 些 块 的 ， 包 括 给 出 HCL 描述 。 

。 线 路 的 名 字 在 白色 圆 角 方 框 中 说 明 。 它 们 只 是 线路 的 标识 ， 而 不 是 什么 硬件 元 素 。 

。 宽 度 为 字 长 的 数据 连接 用 中 等 粗 度 的 线 表示 。 每 条 这 样 的 线 实 际 上 都 代表 一 得 32 根 线 ， 

并 列 地 连 在 一 起 ， 将 一 个 字 从 硬件 的 一 个 部 分 传送 到 另 一 部 分 。 

。 宽 度 为 字 节 或 更 罕 的 数据 连接 用 细 线 表示 。 根 据 线 上 要 携带 的 值 的 类 型 ， 每 条 这 样 的 线 实 

际 上 都 代表 一 徐 4 根 或 8 根 线 。 

。 单 个 位 的 连接 用 虚线 来 表示 。 这 代表 心 片 上 单元 与 块 之 间 传 递 的 控制 值 。 

图 4-18 一 图 4-21 中 所 有 的 计算 都 有 这 样 的 性 质 ， 每 一 行 都 代表 某 个 值 的 计算 ， 如 valP， 或 
者 激活 某 个 硬件 单元 ， 如 存储 器 。 图 4-24 的 第 二 栏 列 出 了 这 些 计算 和 动作 。 除 了 我 们 已 经 讲 过 
的 那些 信号 以 外 ， 还 列 出 了 四 个 寄存 器 卫 信号 : srcA，valA 的 源 ; srcB，valB 的 源 ; dstE， 写 
入 valE 的 寄存 器 ; 以 及 dstM， 写 人 valM 的 寄存 器 。 

图 中 ， 右 边 两 栏 给 出 的 是 指令 OPI 和 mrmovl 的 计算 ,说 明 要 计算 的 值 。 要 将 这 些 计 算 映 射 
到 硬件 上 ， 我 们 要 实现 控制 逻辑 ， 它 能 在 不 同 硬 件 单元 之 间 传 送 数 据 ， 以 及 操作 这 些 单元 ， 使 得 
对 每 个 不 同 的 指令 执行 指定 的 运算 。 这 就 是 控制 逻辑 块 的 目标 ， 控 制 逻 辑 块 在 图 4-23 中 用 灰色 
圆 角 方 框 表示 。 我 们 的 任务 就 是 依次 经 过 每 个 阶段 ， 创 建 这 些 块 的 详细 设计 。 

4.3.3 SEQ 的 时 序 

在 介绍 图 4-18 一 图 4-21 的 表 时 ， 我 们 说 过 要 把 它们 看 成 是 用 程序 符号 写 的 ， 那 些 赋值 是 从 
上 到 下 顺序 执行 的 。 然 而 ， 图 4-23 中 硬件 结构 的 操作 运行 完全 不 同 ， 一 个 时 钟 变化 会 引发 一 个 
经 过 组 合 逻 辑 的 流 ， 来 执行 整个 指令 。 让 我 们 来 看 看 这 些 硬件 怎样 实现 表 中 列 出 的 这 一 行为 。 

SEQ 的 实现 包括 组 合 逻 辑 和 两 种 存储 器 设备 : 时 钟 寄存 器 〈 程 序 计 数 器 和 条 件 码 寄存 器 )， 
随机 访问 存储 器 〈 寄 存 器 文件 、 指 令 存 储 器 和 数据 存储 器 )。 组 合 逻辑 不 需要 任何 时 序 或 控 
制 一 一 只 要 输入 变化 了 ， 值 就 通过 逻辑 门 网 络 传播 。 正 如 提 到 过 的 那样 ， 我 们 也 将 读 随 机 访问 存 
储 器 看 成 和 组 合 逻 辑 一样 的 操作 ， 根 据 地 址 输入 产生 输出 字 。 对 于 较 小 的 存储 器 来 说 〈 例 如 寄存 
器 文件 )， 这 是 一 个 合理 的 假设 ， 而 对 于 较 大 的 电路 来 说 ， 可 以 用 特殊 的 时 钟 电路 来 模拟 这 个 效 
果 。 由 于 指令 存储 器 只 用 来 读 指 令 ， 因 此 我 们 可 以 将 这 个 单元 看 成 是 组 合 逻辑 。 

现在 还 剩 四 个 硬件 单元 需要 对 它们 的 时 序 进 行 明 确 的 控制 一 一 程序 计数 器 、 条 件 码 寄存 器 、 
数据 存储 器 和 寄存 器 文件 。 这 些 单元 通过 一 个 时 钟 信号 来 控制 ， 它 触发 将 新 值 装载 到 寄存 器 以 及 
将 值 写 到 随机 访问 存储 器 。 每 个 时 钟 周期 ， 程 序 计数 器 都 会 装载 新 的 指令 地 址 。 只 有 在 执行 整数 
运算 指令 时 ， 才 会 装载 条 件 码 寄存 器 。 只 有 在 执行 rmmovl1、pushl 或 call 指令 时 ， 才 会 写 数 
据 存储 器 。 寄 存 器 文件 的 两 个 写 端口 允许 每 个 时 钟 周期 更 新 两 个 程序 寄存 器 ， 不 过 我 们 可 以 用 特 
殊 的 寄存 器 ID 0xF 作为 端口 地 址 ， 来 表明 在 此 端口 不 应 该 执行 写 操作 。 

要 控制 处 理 器 中 活动 的 时 序 ， 只 需要 寄存 器 和 存储 器 的 时 钟 控 制 。 硬 件 获得 了 如 图 
4-18 一 图 4-21 的 表 中 所 示 的 那些 赋值 顺序 执行 一 样 的 效果 ， 即 使 所 有 的 状态 更 新 实际 上 同时 发 

且 只 在 时 钟 上 升 开 始 下 一 个 周期 时 。 之 所 以 能 保持 这 样 的 等 价 性 ， 是 由 于 Y86 指令 集 的 本 
质 ， 因 为 我 们 遵循 以 下 原则 组 织 计 算 : 
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处 理 器 从 来 不 需要 为 了 完成 一 条 指令 的 执行 而 去 恋 由 该 指令 更 新 了 的 状态 。 

这 条 原则 对 实现 的 成 功 来 说 至 关 重 要 。 为 了 说 明 问 题 ， 假 设 我 们 对 pushl 指令 的 实现 是 先 
将 sesp 减 4， 再 将 更 新 后 的 sesp 值 作为 写 操作 的 地 址 。 这 种 方法 同 前 面 所 说 的 那个 原则 相 违 
背 。 为 了 执行 存储 器 操作 ， 它 需要 先 从 寄存 器 文件 中 读 更 新 过 的 栈 指 针 。 然 而 ， 我 们 的 实现 〈 图 
4-20) 产生 出 减 后 的 栈 指针 值 ， 作 为 信号 valLE， 然 后 再 用 这 个 信和 号 既 作为 寄存 器 写 的 数据 ， 也 
作为 存储 器 写 的 地 址 。 因 此 ， 在 时 钟 上 升 开始 下 一 个 周期 时 ， 处 理 器 就 可 以 同时 执行 寄存 器 写 和 
存储 器 写 了 。 


新 PC 


访 存 


译 码 





instr_. valid | 


imem_error : : 


取 指 


图 4.23 SEQ 的 硬件 结构 一 种 顺序 实现 。 有 些 控制 信号 以 及 寄存 器 和 控制 字 连 接 没 有 画 出 来 
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图 4-24 标识 顺序 实现 的 不 同 计算 步骤 。 第 二 栏 标识 SEQ 阶段 正在 计算 的 值 ， 或 正在 执行 的 操作 。 以 


指令 OP1 和 mrmov1l 的 计算 作为 示例 


再 举 个 例子 来 说 明 这 条 原则 ， 我 们 可 以 看 到 有 些 指令 〈 整 数 运算 ) 会 设置 条 件 码 ， 有 些 指令 
( 跳 转 指令 ) 会 读 取 条 件 码 ， 但 没有 指令 必须 既 设 置 又 读 取 条 件 码 。 虽 然 要 到 时 钟 上 升 开 始 下 一 
个 周期 时 ， 才 会 设置 条 件 码 ， 但 是 在 任何 指令 试图 读 之 前 ， 它 们 都 会 更 新 。 

以 下 是 汇编 代码 ， 左 边 列 出 的 是 指令 地 址 ， 图 4-25 给 出 了 SEQ 硬件 如 何 处 理 其 中 第 3 和 第 


4 行 指令 ; 
1 0x000: irmovl] $0x100 ,%ebx # %ebx “-- Ox100 
2 0x006 : irmovVv1l $0x200 ,%edx # hedx <-- 0x200 
3 OxO0c: addl] Wedx ,Whebx # Yebx “-- Ox300 CC <-- 000 
4 OxO00e: je dest # Not taken 
5 0x013: rmmovl Webx,O0(Xedx) # M[Ox200] <-- Ox300 
6 Ox019: dest: halt 


标号 为 1 ~ 4 的 各 个 图 是 4 个 状态 元 素 ， 还 有 组 合 逻 辑 ， 


以 及 状态 元 素 之 间 的 连接 。 组 合 逻 


辑 被 条 件 码 寄存 器 环绕 着 ， 因 为 有 的 组 合 逻 辑 ( 例 如 ALU) 产生 输入 到 条 件 码 寄存 器 ， 而 其 他 
部 分 (例如 分 支 计算 和 PC 选择 逻辑 ) 又 将 条 件 码 寄存 器 作为 输入 。 图 中 寄存 器 文件 和 数据 存储 
器 有 独立 的 读 连 接 和 写 连 接 ， 国人 总 扣 (有 各 这 书信 各 就 好 像 它们 是 组 合 逻 辑 ， 而 写 操作 


是 由 时 钟 控制 的 。 


图 4-25 中 的 标 有 颜色 的 代码 表明 电路 信号 是 如 何 与 正在 被 执行 的 不 同 指令 相 联 系 的 。 我 们 
假设 处 理 是 从 设置 条 件 码 开始 的 ， 按 照 ZF、SF 和 OF 的 顺序 ， 设 为 100。 在 时 钟 周期 3 开始 的 
时 候 〈 点 1)， 状 态 元 素 保持 的 是 第 二 条 izmov1l 指令 (第 2 行 ) 更 新 过 的 状态 ， 该 指令 用 浅 灰 
色 表 示 。 组 合 逻 辑 用 白色 表示 ， 表 明 它 还 没有 来 得 及 对 变化 了 的 状态 做 出 反应 。 时 钟 周期 开始 
时 ， 地 址 0x00c 载 人 程序 计数 器 中 。 这 样 就 会 取出 和 处 理 addl 指令 (第 3 行 )。 值 沿 着 组 合 
逻辑 流动 ， 包 括 读 随 机 访问 存储 器 。 在 这 个 周期 末尾 《点 2)， 组 合 逻 辑 为 条 件 码 产 生 了 新 的 值 
(000)， 更 新 了 程序 寄存 器 sebx， 以 及 程序 计数 器 的 新 值 (0x00e)。 在 此 时 ， 组 合 尿 辑 已 经 根 
据 addl 指令 被 更 新 了 ， 但 是 状态 还 是 保持 着 第 二 条 irmov1 指令 〈 用 浅 灰 色 表 示 ). 设置 的 值 。 

当时 钟 上 升 开 始 周期 4 时 〈 点 3)， 会 更 新 程序 计数 器 、 寄 存 器 文件 和 条 件 码 寄存 器 ， 但 是 


组 合 逻 辑 还 没有 对 这 些 变 化 做 出 反应 ， 


所 以 用 白色 表示 。 在 这 个 周期 内 ， 会 取出 并 执行 je 指 
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令 〈 第 4 行 )， 在 图 中 用 深 灰 色 表示 。 因 为 条 件 码 ZF 为 0， 所 以 不 会 选择 分 支 。 在 这 个 周期 末尾 
(点 4)， 程 序 计 数 器 已 经 产生 了 新 值 0x013。 组 合 逻 辑 已 经 根据 je 指令 〈 用 深 灰 色 表 示 ) 被 更 
新 过 了 ， 但 是 直到 下 个 周期 开始 之 前 ， 状 态 还 是 保持 着 add1 指令 (用 灰色 表示 ) 设置 的 值 。 

如 此 例 所 示 ， 用 时 钟 来 控制 状态 元 素 的 更 新 ， 以 及 值 通过 组 合 逻 辑 来 传播 ， 足 够 控制 我 们 
SEQ 实现 中 每 条 指令 执行 的 计算 了 。 每 次 时 钟 由 低 变 高 时 ， 处 理 器 开始 执行 一 条 新 指令 。 


+ 周期 1 周期 2 一 周期 3 一 
时 钟 | |L | Ce 














周期 1: irmov1 $0x100,%ebx # Yebx <-- 0x100 
周期 2: 1%0x096:.… irmovl 0x200,%edx # %edx'<-- 0X200 和， 
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图 4-25 跟踪 SEQ 的 两 个 执行 周期 。 每 个 周期 开始 时 ， 状 态 元 素 〔 程 序 计数 器 、 条 件 码 寄 存 器 、 寄 存 
器 文件 以 及 数据 存储 器 是 根据 前 一 条 指令 设置 的 。 信 号 传播 通过 组 合 逻辑 ， 创 建 出 新 的 状 
态 元 素 的 值 。 在 下 一 个 周期 开始 时 ， 这 些 值 会 被 加 载 到 状态 元 素 中 


4.3.4 ”SEQ 阶段 的 实现 

本 节 会 设计 实现 SEQ 所 需要 的 控制 逻辑 块 的 HCL 摘 述 。 完 整 的 SEQ 的 HCL 描述 请 参见 网 
络 旁 注 ARCH:HCL。 在 此 ， 我 们 给 出 一 些 例子 ， 而 其 他 的 作为 练习 题 。 建 议 你 做 做 这 些 练习 来 
检验 你 的 理解 ， 即 这 些 块 是 如 何 与 不 同 指令 的 计算 需求 相 联系 的 。 
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我 们 没有 讲 的 那 部 分 SEQ 的 HCL 描述 ， 是 不 同 整数 和 布尔 信号 的 定义 ， 它 们 可 以 作为 
HCL 操作 的 参数 。 ne 以 及 不 同 指令 代码 、 功 能 码 、 寄 存 器 名字、 
ALU 操作 和 状态 码 的 常数 值 。 只 列 出 了 那些 在 控制 逻辑 中 必须 被 显 式 引用 的 常数 。 图 4-26 是 我 
们 使 用 的 常数 。 按照 习惯 ， 常数 值 都 是 大 写 的 。 


INOP nop 指 令 的 代码 
IHALT halt 指 令 的 代码 
IRRMOVL rrmov1 指 令 的 代码 
IIRMOVL irmov1 指 令 的 代码 
IRMMOVL zmmov1 指 令 的 代码 
IMRMOVL mrmov1l 指 令 的 代码 
IOPL 整数 运算 指令 的 代码 
IJXX 跳 转 指令 的 代码 
ICALL cal1 指 令 的 代码 
IRET ret 指令 的 代码 
IPUSHL push1 指 令 的 代码 
IPOPL PoP1 指 令 的 代码 


默认 函数 代码 


sesp 的 寄存 器 ID 

表明 没有 寄存 器 文件 访 问 
加 法 运算 的 功能 

@ 正 常 操作 状态 码 

@ 地 址 异常 状态 码 

@ 非 法 指令 状态 码 
@halt 状 态 码 
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图 4-26 HCL 描述 中 使 用 的 常数 值 。 这 些 值 表示 的 是 指令 、 功 能 码 、 寄 存 器 卫 、ALU 操作 和 状态 码 的 编码 


除了 图 4-18 一 图 4-21 中 所 示 的 指令 以 外 ， 还 包括 了 对 nop 和 halt 指令 的 处 理 。nop 指令 
只 是 简单 地 经 过 各 个 阶段 ， 除 了 要 将 PC 加 1， 不 进行 任何 处 理 。halt 指令 使 得 处 理 器 状态 被 
设置 为 HLT， 导 致 处 理 器 停止 运行 。 

1. 取 指 阶段 省 

如 图 4-27 所 示 ， 取 指 阶 段 包 括 指令 存储 器 硬件 单元 。 以 PC 作为 第 一 个 字 节 〈 字 节 0) 的 地 
址 ， 这 个 单元 一 次 从 存储 器 恋 出 6 个 字 节 。 第 一 个 字 节 被 解释 成 指令 字 节 ，( 标 号 为 “Split” 的 
单元 ) 分 为 两 个 4 位 的 数 。 然 后 ， 标 号 为 “icode” 和 “ifun” 的 控制 逻辑 块 计算 指令 和 功能 码 ， 
等 于 从 存储 器 读 出 的 值 ， 或 者 当 指 令 地 址 不 合法 时 (由 信号 imem_error 指明 )， 这 些 值 对 应 于 
nop 指令 。 根 据 icode 的 值 ， 我 们 可 以 计算 三 个 一 位 的 信号 〈 用 虚线 表示 ) : 

instr_valid : 这 个 字 节 对 应 于 一 个 合法 的 Y86 指令 吗 ? 这 个 信号 用 来 发 现 不 合法 的 指 信 。 

need regids : 这 个 指令 包括 一 个 寄存 器 指示 符 字 节 吗 ? 

need valC : 这 个 指令 包括 一 个 常数 字 吗 ? 

( 当 指 令 地 址 越界 时 会 产生 的 ) 信号 instr valid 和 imem error 在 访 存 阶段 被 用 来 产 
生 状 态 码 。 

让 我 们 再 来 看 一 个 例子 ，need_regids 的 HCL 描述 只 I icode 的 值 是 否 为 一 条 带 有 
寄存 器 指示 值 字 市 的 指令 。 

bool need_regids = 


icode in { IRRMOVL, IOPL, IPUSHL, IPOPL, 
IIRMOVL, IRMMOVL, IMRMOVL }; 
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icode ifun rA rm valC valP 





图 4-27 SEQ 的 取 指 阶段 。 以 PC 作为 起 始 地 址 ， 从 指令 存储 器 中 读 出 六 个 字 节 。 根 据 这 些 字 节 ， 产 
生出 各 个 指令 字段 。PC 增加 模块 计算 信号 valP 


SS 练习 题 4.17 写 出 SEQ 实现 中 信号 need_valc 的 HCL 代码 。 

如 图 4-27 所 示 ， 从 指令 存储 器 中 读 出 的 剩 下 5 个 字 市 是 寄存 器 指示 符 字 节 和 常数 字 的 组 合 
编码 。 标 号 为 “Align” 的 硬件 单元 会 处 理 这 些 字 节 ， 将 它们 放 人 寄存 器 字段 和 常数 字 中 。 当 被 
计算 出 的 信号 need_regids 为 1 时， 字 节 1 被 分 开 装 入 寄存 器 指示 符 rA 和 了 荆 中 。 否 则 ， 这 
两 个 字段 会 被 设 为 0xF (RNONE )， 表 明 这 条 指令 没有 指明 寄存 器 。 回 想 (图 4-2)， 任 何 只 有 
一 个 寄存 器 操作 数 的 指令 ， 寄 存 器 指示 值 字 节 的 男 一 个 字段 都 设 为 0xF (RNONE )。 因 此 ， 可 以 
将 信和 号 rA 和 rB 看 成 ， 要 么 放 着 我 们 想 要 访问 的 寄存 器 ， 要 人 么 表明 不 需要 访问 任何 寄存 器 。 这 
个 标号 为 “Align” 的 单元 还 产生 常数 字 valc。 根 据 信号 need 0 的 值 ， 要 么 根据 字 节 
1 一 4 来 产生 val1C， 要 么 根据 字 节 2 ~ 5 来 产生 。 

PC 增加 器 硬件 单元 根据 当前 的 PC 以 及 两 个 信号 need_regids 和 need_valc 的 值 ， 
产生 信号 valP。 对 于 PC 值 p、 need regids 值 ,以 及 need valc 值 i， 增加 器 产生 值 
p+l+r+4i。 

2. 译 码 和 写 回 阶段 

图 4-28 是 SEQ A tds 清 况 。 把 这 两 个 阶段 联系 在 一 起 ， 是 因 
为 它们 都 要 访问 寄存 器 文件 。 

寄存 器 文件 有 四 个 端口 。 它 支持 同时 进行 两 个 读 〈 在 端口 A 和 了 B 上 ) 和 两 个 写 (在 端口 E 
和 M 上 )。 每 个 端口 都 有 一 个 地 址 连接 和 一 个 数据 连接 ， 地 址 连接 是 一 个 寄存 器 IDP， 而 数据 连 
接 是 一 组 32 根 线路 ， 既 可 以 作为 寄存 器 文件 的 输出 字 〈 对 读 端 口 来 说 )， 也 可 以 作为 它 的 输入 字 
(对 写 端口 来 说 )。 两 个 读 端 口 的 地 址 输入 为 srcA 和 szrcB， 而 两 个 写 端口 的 地 址 输入 为 dstE 
和 dstM。 如 果菜 个 地 址 端口 上 的 值 为 特殊 标识 符 0xF (RNONE )， 则 表明 不 需要 访问 寄存 器 。 

根据 指令 代码 icode 以 及 寄存 器 指示 值 rA 和 rB， 可 能 还 会 根据 执行 阶段 计算 出 的 Cnd 
条 件 信和 号， 图 4-28 底部 的 四 个 块 产生 四 个 不 同 的 寄存 器 文件 的 寄存 器 DD。 寄存 器 ID srcA 表 
明 应 该 读 哪个 寄存 器 以 产生 valA。 所 需要 的 值 依赖 于 指令 类 型 ， 如 图 4-18 一 图 4-21 中 译 码 阶 
有 段 第 一 行 所 示 。 将 所 有 这 些 条 目 整合 到 一 个 计算 中 就 得 到 以 下 srcA 的 HCL 描述 (回想 RESP 
是 $esp 的 寄存 器 ID ) : 
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# Code from SEQ 
int SrcA = [ 
icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } : rA 
icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 
] ; 
及 全 练习 题 4.18 寄存 器 信和 号 srcB 表明 应 该 读 哪 个 寄存 器 以 产生 信和 号 valB。 所 需要 的 值 如 图 4-18 一 图 
4-21 中 译 码 阶段 第 二 步 所 示 。 写 出 srcB 的 HCL 代码 。 
寄存 器 ID dstE 表明 写 端 口 E 的 目的 寄存 器 ， 计 算出 来 的 值 valE 将 放 在 那里 。 图 4-18 ~ 图 
4-21 写 回 阶段 第 一 步 表明 了 这 一 点 。 如 果 我 们 暂时 忽略 条 件 移动 指令 ， 综 合 所 有 不 同 指令 的 目 
的 寄存 器 ， 就 得 到 下 面 的 dstE 的 HCL 描述 : 
# WARNING: Conditional move not implemented correctly here 
int dstE = [ 
icode in IRRMOVL } : 
icode in { IIRMOVL， oy . 


icode in { IPUSHL, IPOPL, i IRET } : RESP; 
1 : RNONE; # Don't write any register 





J 


我 们 查看 执行 阶段 时 ， 会 重新 审视 这 个 信号 ， 看 看 如 Cnd valA valB valM valE 

何 实现 条 件 传送 。 

SN 练习 题 4.19 才 存 器 ID dstM 表 明 写 端口 M 的 目的 寄存 器 
从 存储 器 中 读 出 来 的 值 valM 将 放 在 那里 ， 如 图 4.18 一 图 
4-21 中 写 回 阶段 第 二 步 所 示 。 写 出 dstM 的 HCL 代码 。 

ES 练习 题 4.20 只 有 popl 指令 会 同时 用 到 寄存 器 文件 的 两 
个 号 端口 。 对 于 指令 pop1%sesP， 王 和 M 两 个 写 端口 会 用 
到 同一 个 地 址 ， 但 是 写 入 的 数据 不 同 。 为 了 解决 这 个 冲突 ， : 
必须 对 两 个 写 端 口 设立 一 个 优先 级 ， 这 样 一 来 ， 当 同一 个 icode - | rA rB 








周期 内 两 个 写 端 口 都 试图 对 一 个 寄存 器 进行 家 时 ， 只 有 较 a 
图 4-28 ”SEQ 的 译 码 和 写 回 阶段 。 指 
高 优先 级 端口 上 的 写 才 会 发 生 。 那 么 要 实现 练习 题 4.7 中 
确定 的 行为 ， 哪 个 端口 该 具有 较 高 的 优先 级 呢 ? 使 用 的 四 个 地 址 (两 个 读 和 两 
3. 执行 阶段 个 写 ) 的 寄存 器 标识 符 。 从 
执行 阶段 包括 算术 / 俱 辑 单元 (ALU)。 这 个 单元 I So le 
全 、 | 2 号 valA 和 valB。 两 | 写 回 值 
根据 alufun 信号 的 设置 ， 对 输入 aluA 和 aluB 执行 valE 和 valM 作 为 操作 的 所 


ADD、SUBTRACT、AND 或 EXCLUSIVE-OR 运算 。 如 
图 4-29 所 示 ， 这 些 数据 和 控制 信号 由 三 个 控制 块 产生 。ALU 的 输出 就 是 valE 信号。 

在 图 4-18 一 图 4-21 中 ， 执 行 阶段 的 第 一 步 就 是 每 条 指令 的 ALU 计算 。 列 出 的 操作 数 aluB 
在 前 面 , :后 面 是 aluA， 这 样 是 为 了 保证 subl 指令 是 valB 减 去 valA。 可 以 看 到 ， 根 据 指 令 
的 类 型 ，aluA 的 值 可 以 是 valA、valc， 或 者 是 -4 或 +4。 因 此 我 们 可 以 用 下 面 的 方式 来 表达 
产生 aluA 的 控制 块 的 行为 : 


int aluA = [ a 

icode in { IRRMOVL, IOPL } : valA; 

icode in { IIRMOVL, IRMMOVL, IMRMOVL } : valC: 
icode in { ICALL, IPUSHL } : - 

icode in { IRET, IPOPL } : 4 

# Other instructions don't need ALU 
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家 弄 练习 题 4.21 根据 图 4-18 一 图 4-21 中 执行 阶段 第 一 步 的 第 一 个 操作 数 ， 写 出 SEQ 中 信和 号 aluB 的 
HCL 描述 。 
观察 ALU 在 执行 阶段 执行 的 操作 ， 可 以 看 到 它 通 Cnd valE 
常 是 作为 加 法 器 来 使 用 。 不 过 ， 对 于 OP1 指令 ， 我 们 希 
望 它 使 用 指令 ifun 字段 中 编码 的 操作 。 因 此 ， 可 以 将 
ALU 控制 的 HCL 描述 写成 : 
int alufun = [ 


icode == IOPL : ifun; 
1 : ALUADD ; 





J 


执行 阶段 还 包括 条 件 码 寄存 器 。 每 次 运 运行 时 ， ALU icode ifun valC ya valB 
都 会 产生 三 个 与 条 件 码 相关 的 信号 一 一 零 、 符 号 和 溢 图 429 SEQ 执行 阶段 。ALU 要 么 为 整数 


出 。 不 过 ， 我 们 只 希望 在 执行 OPI 指令 时 才 设 置 条 件 运算 指令 执行 操作 ， 要 么 作为 加 

码 。 因 此 产生 了 一 个 信号 set_cc 来 控制 是 否 应 该 更 法 器 。 根 据 ALU 的 值 ， 设 置 条 件 

新 条 件 码 寄存 器 : 码 寄 存 器 。 检 测 条 件 码 的 值 ， 判 
断 是 否 该 选择 分 支 


bool set_cc = icode in { IOPL }:; 


标号 为 “cond” 的 硬件 单元 会 根据 条 件 码 和 功能 码 来 确定 是 否 进行 条 件 分 支 或 者 条 件数 据 传 
送 〈 见 图 4-3)。 它 产生 信号 cnd， 用 于 设置 条 件 传送 的 
dstE， 也 用 在 条 件 分 支 的 下 一 个 PC 逻辑 中 。 对 于 其 他 
指令 ， 取 决 于 指令 的 功能 码 和 条 件 码 的 设置 ，Cnd 信和 号 
可 以 被 设置 为 1 或 者 0。 但 是 控制 逻辑 会 忽略 它 。 我 们 
省 略 这 个 单元 的 详细 设计 。 instr vald | es 
外 练习 题 4.22 条 件 传送 指令 ， 简 称 cmovXX， 指 令 代码 imem_erd| 时 > 

为 IRRMOVL。 如 图 4-28 所 示 ， 我 们 可 以 用 执行 阶段 中 Mo 

产生 的 Cnd 信号 实现 这 些 指令 。 修改 dstE 的 HCL 代 入 

码 以 实现 这 些 指令 。 SAO [Weft | 

4. 访 存 阶段 

访 存 阶 段 的 任务 就 是 读 或 者 写 程序 数据 。 如 图 4-30 
所 示 ， 两 个 控制 块 产生 存储 器 地 址 和 存储 器 输入 数据 a 
(为 写 操作 ) 的 值 。 另 外 两 个 块 产生 控制 信号 表明 应 该 图 430 “SEQ 沪 行 阶段 。 数据 三 储 器 吧 避 以 
执行 读 操 作 还 是 写 操作 。 当 执行 读 操作 时 ， 数 据 存储 器 dione a 
a 器 中 读 出 的 值 就 形成 了 信号 valM 

图 4-18 一 图 4-21 的 存储 器 阶段 给 出 了 每 个 指令 类 
型 所 需要 的 存储 器 操作 。 可 以 看 到 存储 器 读 和 写 的 地 址 总 是 valE 或 valA。 这 个 块 用 HCL 撒 
述 就 是 : 

int mem_addr = [ 

icode in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : valLE; 


icode in { IPOPL, IRET } : valAh; 
# Other instructions don't need address 


. 
Sroreverssstnoneesete rostertstresstsorerraes 






icode valE valA valP 


证 红 练习 题 4.23 观察 图 4-16 ~ 图 4-19 所 示 的 不 同 指令 的 存储 器 操作 ， 我 们 可 以 看 到 存储 器 写 的 数据 总 
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是 valA 或 valP。 写 出 SEQ 中 信号 mem data et 代码 。 
我 们 希望 只 为 从 存储 器 读数 据 的 指令 设置 控制 信号 mem _read， 用 HCL 代码 表示 就 是 : 


bool mem_read = icode in { IMRMOVL, IPOPL, IRET }:; 


练习 题 4.24 我们 希望 只 为 向 存储 器 写 数据 的 指令 设置 控制 信号 mem _write。 写 出 SEQ 中 信号 
mem write 的 HCL 代码 。 
访 存 阶段 最 后 的 功能 是 根据 取 值 阶段 产生 的 icode、imem error、instr valid 值 以 
及 数据 存储 器 产生 的 dmem_error 信号 ， 从 指令 执行 的 结果 来 计算 状态 码 Stat。 
中 练习 题 4.25 ” 写 出 Stat 的 HCL 代码 ， 产 生 四 个 状态 码 SAOK、SADR、SINS 和 SHLT (参见 图 4-26)。 
5. 更 新 PC 阶段 \ 
SEQ 中 最 后 一 个 阶段 会 产生 程序 训 计 数 器 的 新 值 ( 见 图 4-31)。 如 图 4-18 一 图 4-21 中 最 后 步 
又 所 示 ， 依 据 指令 的 类 型 和 是 否 要 选择 分 支 ， 新 的 PC 可 能 是 valC、valM 或 valP。 用 HCL 
来 描述 这 个 选择 就 是 : 


int new_pc = [ 
# Call. Use instruction constant 
icode == ICALL : valC; 
# Taken branch. Use instruction constant 
icode == IJXX && Cnd : valcC; 
# Completion of RET instruction. Use value from stack 
icode == IRET : valM; 
# Default: Use incremented PC 
1 : valPp; 








] ; 
6.SEQ 二 
到 ， 通过 将 不 同 指 令 所 了 0 就 icode Ba valC valM valP 
可 以 用 很 少量 的 各 种 硬 件 单元 以 及 一 个 时 钟 来 控制 计算 的 顺序 ， 从 而 。 图 4.31 SBQ 更 新 PC 阶段 
实现 整个 处 理 器 。 不 过 这 样 一 来 ， 控 制 逻辑 就 必须 要 在 这 些 单元 之 间 





路 由 信号 ， 并 根据 指令 类 型 和 分 支 条 件 产生 适当 的 控制 信号 。 了 
SEQ 叭 一 的 问题 就 是 它 太 慢 了 。 时 钟 必须 非常 慢 ， 以 使 信号 能 ”和 站 
在 一 个 周期 内 传播 所 有 的 阶段 。 让 我 们 来 看 看 处 理 一 条 ret 指令 的 es 


例子 。 在 时 钟 周期 起 始 时 ， 从 更 新 过 的 PC 开始 ， 要 从 指令 存储 器 中 
读 出 指令 ， 从 寄存 器 文件 中 读 出 栈 指针 ，ALU 要 减 小 栈 指针 ， 为 了 
得 到 程序 计数 器 的 下 一 个 值 ， 还 要 从 存储 器 中 读 出 返回 地 址 。 所 有 这 一 切 都 必须 在 这 个 周期 结束 
之 前 完成 。 

这 种 实现 方法 不 能 充分 利用 硬件 单元 ， 因 为 每 个 单元 只 在 整个 时 钟 周 期 的 一 部 分 时 间 内 才 被 
使 用 。 我 们 会 看 到 引入 流水 线 能 获得 更 好 的 性 能 。 


4.4 流水 线 的 通用 原理 


在 试图 设计 一 个 流水 线 化 的 Y86 处 理 器 之 前 ， 让 我 们 先 来 看 看 流水 线 化 系统 的 一 些 通 用 属 
性 和 原理 。 对 于 曾经 在 自助 餐厅 的 服务 线 上 工作 过 或 者 开车 通过 自动 汽车 清洗 线 的 人 ， 都 会 非常 
熟悉 这 种 系统 。 在 流水 线 化 的 系统 中 ， 待 执行 的 任务 被 划分 成 了 若干 个 独立 的 阶段 。 在 目 助 餐 
厅 ， 这 些 阶 段 包 括 提供 沙拉 、 主 菜 、 甜 点 以 及 饮料 。 在 汽车 清洗 中 ， 这 些 阶段 包括 喷 水 和 打 肥 
皂 、 擦 洗 、 上 蜡 和 烘 干 。 通 常 都 会 允许 多 个 顾客 同时 经 过 系统 ， 而 不 是 要 等 到 一 个 用 户 完成 了 所 
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有 从 头 至 尾 的 过 程 才 让 下 一 个 开始 。 在 一 个 典型 的 自助 餐厅 流水 线 上 ， 顾 客 按照 相同 的 顺序 经 过 
各 个 阶段 ， 即 使 他 们 并 不 需要 某 些 菜 。 在 汽车 清洗 的 情况 中 ， 当 前 面 一 辆 汽车 从 喷 水 阶段 进入 擦 
洗 阶 段 时 ， 下 一 辆 就 可 以 进入 喷 水 阶段 了 。 通常 ， 汽 车 必须 以 相同 的 速度 通过 这 个 系统 ， 以 避免 
撞车 。 

流水 线 化 的 一 个 重要 特性 就 是 增加 了 系统 的 吞吐 量 (throughput)， 也 就 是 单位 时 间 内 服务 的 
顾客 总 数 ， 不 过 它 也 会 轻微 地 增加 延迟 (latency)， 也 就 是 服务 一 个 用 户 所 需要 的 时 间 。 例 如 ， 
自动 餐厅 里 的 一 个 只 需要 沙拉 的 顾客 ， 能 很 快 通过 一 个 非 流水 线 化 的 系统 ， 只 在 沙拉 阶段 停留 。 
但 是 在 流水 线 化 的 系统 中 ， 这 个 顾客 如 果 试 图 直接 去 沙拉 阶段 就 有 可 能 招致 其 他 顾客 的 愤怒 了 。 
4.4.1 计算 流水 线 

让 我 们 把 注意 力 放 到 计算 流水 线 上 来 ， 这 里 的 “顾客 ”就 是 指令 ， 每 个 阶段 完成 指令 执行 的 
一 部 分 。 图 4-32 是 一 个 很 简单 的 非 流水 线 化 的 硬件 系统 例子 。 它 是 由 一 些 执行 计算 的 逻辑 以 及 
一 个 保存 计算 结果 的 寄存 器 组 成 的 。 时 钟 信号 控制 在 每 个 特定 的 时 间 间 隔 加 载 寄存 器 。CD 播放 
器 中 的 译 码 器 就 是 这 样 的 一 个 系统 。 输 入 信号 是 从 CD 表面 读 出 的 位 ， 逻 辑 电 路 对 这 些 位 进行 译 
码 ， 产 生 音 频 信号 。 图 中 的 计算 块 是 用 组 合 逻辑 来 实现 的 ， 意 味 着 信和 号 会 穿 过 一 系列 逻辑 门 ， 在 
一 年 时间 的 延迟 之 后 ， 输 出 就 成 为 了 输入 的 某 个 函数 。 


300 ps 20 ps 





b) 流水 线 图 


图 4-32 非 流 水 线 化 的 计算 硬件 。 每 个 320ps 的 周期 内 ， 系 统 用 300ps 计算 组 合 逻 辑 函数 ，20ps 将 结 
果 存 到 输出 寄存 器 中 


在 现代 逻辑 设计 中 ， 电 路 延迟 以 微微 秒 (picosecond， 简 写成 “ps”)， 也 就 是 10-2 秒 为 单位 
来 计算 。 在 这 个 例子 中 ， 我 们 假设 组 合 逻辑 需要 300ps， 而 加 载 寄 存 器 需要 20ps。 图 4-32 还 给 
出 了 一 种 时 序 图 ， 称 为 流水 线 图 (pipeline diagram)。 在 图 中 ， 时 间 从 左 向 右 流动 。 从 上 到 下 写 
着 一 组 操作 〈 在 此 称 为 II、Z 和 13)。 实 心 的 长 方形 表示 这 些 指 令 执 行 的 时 间 。 这 个 实现 中 ， 在 
开始 下 一 条 指令 之 前 必须 完成 前 一 个 。 因 此 ， 这 些 方 框 在 垂直 方向 上 并 没有 相互 重 释 。 下 面 这 个 
公式 给 出 了 运行 这 个 系统 的 最 大 吞吐 量 : 


1 nstruction 1000 plcosecond 


一 -一 一 一 一 一 一 一 入 3.12 GIPS 
(20 十 300) picosecond lnanosecond 


吞吐 量 = 

我 们 以 每 秒 千 兆 条 指令 (GIPS)， 也 就 是 每 秒 十 亿 条 指令 ， 为 单位 来 描述 香 吐 量 。 从 头 到 尾 

执行 一 条 指令 所 需要 的 时 间 称 为 起 (latency)。 在 此 系统 中 ， 延 迟 为 320ps， 也 就 是 吞吐 量 的 
倒数 。 
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假设 将 系统 执行 的 计算 分 成 三 个 阶段 (A、B 和 C)， 每 个 阶段 需要 100ps， 如 图 4-33 所 示 ， 
然后 在 各 个 阶段 之 间 放 上 流水 线 寄存 器 (pipeline registers)， 这 样 每 条 指令 都 会 按照 三 步 经 过 
这 个 系统 ， 从 头 到 尾 需 要 三 个 完整 的 时 钟 周期 。 如 图 4-33 中 的 流水 线 图 所 示 ， 只 要 了 从 A 进 
入 B， 就 可 以 让 I 进入 阶段 A 了 ， 依 此 类 推 。 在 稳定 状态 下 ， 三 个 阶段 都 应 该 是 活动 的 ， 每 个 
时 钟 周期 ， 一 条 指令 离开 系统 ， 一 条 新 的 进入 。 从 流水 线 图 中 第 三 个 时 钟 周期 就 能 看 出 这 一 点 ， 
此 时 ,11 是 在 阶段 C，L2 在 阶段 B， 而 也 是 在 阶段 A。 在 这 个 系统 中 ， 我 们 将 时 钟 周期 设 为 
100+20=120ps， 得 到 的 吞吐 量 大 约 为 8.33GIPS。 因 为 处 理 一 条 指令 需要 3 个 时 钟 周期 ， 所 以 这 
条 流水 线 的 延迟 就 是 3X 120=360ps。 我 们 将 系统 吞吐 量 提高 到 原来 的 8.33/3.12=2.67 倍 ， 代 价 是 
增加 一 些 硬件 ， 以 及 延迟 的 少量 增加 〈360/320=1.12)。 延 迟 变 大 是 由 于 增加 的 流水 线 寄 存 器 的 


时 间 开 销 。 


2 






100 ps 20 ps 


3| 延迟 = 360 ps 


| 


| 吞吐 量 = 8.33 GIPS 


a) 硬件 : 三 阶段 流水 线 





b) 流 水 线 图 


图 4-33 三 阶段 流水 线 化 的 计算 硬件 。 计算 该 划 人 为 三 个 阶段 A、B 和 C。 每 经 过 一 个 120ps 的 周期 ， 
每 条 指令 就 行进 通过 一 个 阶段 | 


4.4.2 ”流水 线 操作 的 详细 说 明 

为 了 更 好 地 理解 流水 线 是 怎样 工作 的 ， 让 我 们 来 详细 看 时 钟 |L LTLT LT LT 
看 流水 线 计算 的 时 序 和 操作 。 图 4-34 是 前 面 我 们 看 到 过 的 
三 阶段 流水 线 〈 见 图 4-33) 的 流水 线 图 。 就 像 流水 线 图 上 方 
指明 的 那样 ， 流 水 线 阶段 之 间 的 指令 转移 是 由 时 钟 信号 来 控 人 
制 的 。 每 隔 120ps， 信号 从 0 上 并 至 1， 开始 下 一 组 流水 线 0 120 240 360 480 600 
阶段 的 计算 。 | 时 间 

图 4-35 跟踪 了 时 刻 240 ~ 360 之 间 的 电路 活动 ， 指 图 4.34 ”三 阶段 流水 线 的 时 序 。 时 钟 信 
令 I1 经 过 阶段 C，I2 经 过 阶段 B， 而 13 经 过 阶段 A。 就 号 的 上 升 沿 控制 指令 从 一 个 流 
在 时 刻 240〈 点 1) 时 钟 上 升 之 前 ， 阶 段 A 中 计算 的 指令 水 线 阶 和 移动 到 下 一 个 阶段 
12 的 值 已 经 到 达 第 一 个 流水 线 寄存 器 的 输入 ， 但 是 该 寄存 
器 的 状态 和 输出 还 保持 为 指令 I1 在 阶段 A 中 计算 的 值 。 指令 I1 在 阶段 B 中 计算 的 值 已 经 到 
达 第 二 个 流水 线 寄存 器 的 输入 。 当 时 钟 上 升 时 ， 这 些 输 入 被 加 载 到 流水 线 寄存 器 中 ， 成 为 
寄存 带 的 输出 (上 2)。 另 外 ， 阶 段 A 的 输入 被 设置 成 发 起 指令 13 的 计算 。 然 后 信号 传播 
通过 各 个 阶段 的 组 合 逻 辑 (点 3)。 就 像 图 中 点 3 处 的 曲线 化 的 波 阵 面 ， (eurved wavefront) 
表明 的 那样 ， 信号 可 能 以 不 同 的 速率 通过 各 个 不 同 的 部 分 。 在 时 刻 360 之 前 ， 结果 值 到 达 
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流水 线 寄存 器 的 输入 《点 4)。 当 时 刻 360 时 钟 上 升 时 ， 各 条 指令 会 前 进 经 过 一 个 流水 线 阶 
段 。 
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图 4-35 流水线 操 作 的 一 个 时 钟 周期 。 在 时 刻 240 (点 1) 时 名 上 升 之 前 ， 指 令 II (用 深 灰 色 表 示 ) 和 

12 已 经 完成 了 阶段 B 和 A。 在 时 钟 上 升 后 ， 这 些 指 令 开始 传送 到 阶段 C 和 B, 而 指令 13 (用 

，” 浅 灰色 表示 )〉 开始 过 阶段 A 点 2 和 3)。 就 在 时 名 开始 笛 次 欠 上 升 之 前 ; 这些 指令 的 结果 就 
会 传 到 流水 线 寄存 器 的 输入 (点 :4) 


从 这 个 对 流水 线 操 作 详细 的 描述 中 ， 我 们 可 以 看 到 减缓 时 钟 不 会 影响 流水 线 的 行为 。 信号 伟 
播 到 流水 线 寄存 器 的 输入 ， 但 是 直到 时 钟 上 升 时 才 会 改变 寄存 器 的 状态 。: 另 一 方面 ， 如 果 时 钟 运 
行 得 太 快 ， 就 会 有 灾难 性 的 后 果 。 值 可 能 会 来 不 及 通过 组 合 逻 辑 ， 并 且 当 时 钟 上 升 时 ， 寄 存 器 的 
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输入 还 不 是 合法 的 值 。 

根据 对 SEQ 处 理 器 时 序 的 讨论 〈 见 4.3.3 节 )， 我 们 看 到 这 种 组 合 逻 辑 块 之 间 采 用 时 钟 寄存 
器 的 简单 机 制 ， 足 够 控制 流水 线 中 的 指令 流 。 随 着 时 钟 周而复始 地 上 升 和 下 降 ， 不 同 的 指令 就 会 
通过 流水 线 的 各 个 阶段 ， 不 会 相互 干扰 。 
4.4.3 流水线 的 局 限 性 

图 4-33 的 例子 是 一 个 理想 的 流水 线 化 的 系统 ， 在 这 个 系统 中 ， 我 们 可 以 将 计算 分 成 三 个 相 
互 独立 的 阶段 ， 每 个 阶段 需要 的 时 间 是 原来 逻辑 需要 时 间 的 三 分 之 一 。 不 幸 的 是 ， 会 出 现 其 他 一 
些 因素 ， 降 低 流水 线 的 效率 。 

1. 不 一 致 的 划分 

图 4-36 展示 的 系统 和 前 面 一 样 ， 我 们 将 计算 划分 为 了 三 个 阶段 ， 但 是 通过 这 些 阶 段 的 延 
迟 从 50ps 到 150ps 不 等 。 通 过 所 有 阶段 的 延迟 之 和 仍然 为 300ps。 不 过 ， 运 行 时 钟 的 速率 是 由 
最 慢 阶段 的 延迟 限制 的 。 流 水 线 图 表明 ， 每 个 时 钟 周 期 ， 阶 段 A 都 会 空闲 〈 用 白色 方 框 表 示 ) 
100ps， 而 阶段 C 会 空闲 50ps。 只 有 阶段 B 会 一 直 处 于 活动 状态 。 我 们 必须 将 时 钟 周 期 设 为 
150+20=170ps， 得 到 吞吐 量 为 5. 38 GIPS。 另 外 ， 由 于 时 钟 周期 减 慢 了 ， 延 迟 也 增加 到 了 510ps。 


100 ps 20 ps 





加 延迟 = 510 ps 
pal 吞吐 量 = 5.88 GIPS 





b) 流 水 线 图 
图 4-36 ”由 不 一 至 的 阶段 延迟 造成 的 流水 线 技术 的 局 限 性 。 系统 的 吞吐 量 受 最 慢 阶 段 的 速度 所 限制 


对 硬件 设计 者 来 说 ,将 系统 计算 设计 划分 成 一 组 具有 相同 延迟 的 阶段 是 一 个 严峻 的 挑战 。 通 
常 ， 处 理 器 中 的 某 些 硬件 单元 ， 如 ALU 和 存储 器 ， 是 不 能 被 划分 成 多 个 延迟 较 小 的 单元 的 。 这 
就 使 得 创建 一 组 平衡 的 阶段 非常 困难 。 在 设计 流水 线 化 的 Y86 处 理 器 时 ， 我 们 不 会 过 于 关注 这 
一 层次 的 细节 ， 但 是 理解 时 序 优化 在 实际 系统 设计 中 的 重要 性 还 是 非常 必要 的 。 

SN 练习 题 4.26 ”假设 我 们 分 析 图 4-32 中 的 组 合 逻 辑 ， 认为 它 可 以 分 成 6 个 决 ， 依次 命名 为 A 一 FE， 政 

退 分 别 为 80、30、60、50、70 和 10ps， 如 下 图 所 示 : 





80 ps 30 ps 60 ps 50 ps 70 ps 10 ps 20 ps 





272 党 一 部分 大 序 结构 黎 并 


在 这 些 块 之 间 插 入 流水 线 寄 存 器 ， 就 得 到 这 一 设计 的 流水 线 化 的 版 本 。 根 据 在 哪里 插入 流水 线 寄 
存 器 ， 人 假设 每 个 流水 线 寄存 器 的 迈 
述 为 20ps。 

A. 只 插入 一 个 寄存 器 ， 得 到 一 人 二 了 和风 流 水 线 。 要 全 天 中 盖 最 大 化 ， 记 该 在 里拉 入 器 哆 ? 到 
吐 量 和 延迟 是 多 少 ? 

B. 要 使 一 个 三 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 应 该 将 两 个 寄存 器 插 在 哪里 呢 ? 春 此 量 和 延迟 是 多 少 ? 

C. 要 使 一 个 四 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 应 该 将 三 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 和 延 信 是 多 少 ? 

D. 要 得 到 一 个 吞吐 量 最 大 的 设计 ， 至 少 要 有 几 个 阶段 ? 描述 这 个 设计 及 其 吞吐 量 和 死 迟 。 


2. 流水 线 过 深 ， 收 益 反而 下 降 

图 4-37 说 明了 流水 线 技术 的 另 一 个 局 限 性 。 在 这 个 例子 中 ， 我 们 把 计算 分 成 了 6 个 阶段 ， 
每 个 阶段 需要 50ps。 在 每 对 阶段 之 间 插 人 流水 线 寄存 器 就 得 到 了 一 个 六 阶段 流水 线 。 这 个 系统 
的 最 小 时 钟 周 期 为 50+20=70ps， 吞 吐 量 为 14.29 GIPS。 因 此 ， 通 过 将 流水 线 的 阶段 数 加 倍 ， 我 
们 将 性 能 提高 了 14.29/8.33=1.71。 虽然 我 们 将 每 个 计算 时 钟 的 时 间 缩短 了 两 倍 ， 但 是 由 于 通过 流 
水 线 寄 存 器 的 延迟 ， 吞 吐 量 并 没有 加 倍 。 这 个 延迟 成 了 流水 线 吞 吐 量 的 一 个 制约 因素 。 在 我 们 的 
新 设计 中 ， 这 个 延迟 占 到 了 整个 时 钟 周期 的 28.6%。 


50 pS 20ps 50 J a 50ps 20ps 2 pS 20ps 50ps 20ps S50ps 20ps 





时 钟 0 吞吐 量 -14.29 GIPS 
图 4-37 ”由 开销 造成 的 流水 线 技术 的 局 限 性 。 在 组 合 逻 辑 被 分 成 较 小 的 块 时 ， 由 寄存 器 更 新 引起 的 延 
迟 就 成 为 了 一 个 限制 因素 I : 
为 了 提高 时 钟 频率 ， 现 代 处 理 器 采用 了 很 深 的 (15 或 更 多 的 阶段 流水线。 处 理 器 架构 师 
.将 指令 的 执行 划分 成 很 多 非常 简单 的 步骤 ， 这 样 一 来 每 个 阶段 的 延迟 就 很 小 。 电 路 设计 者 小 心地 
设计 流水 线 寄 存 器 ， 使 其 延迟 尽 可 能 小 。 芯 片 设计 者 也 必须 小 心地 设计 时 钟 传播 网 络 ， 以 保证 时 
钟 在 整个 芯片 上 同时 改变 。 所 有 这 些 都 是 设计 高 速 微 处 理 器 面临 的 挑战 。 





下 练习 题 4.27 ”让 我 们 来 看 看 图 4-32 中 的 系统 ， 候 设 将 它 划分 成 任意 数 重 的 流水 线 阶 段 有 每 个 阶段 有 
相同 的 延迟 300,， 每 个 流水 线 寄 存疑 的 延 迟 为 20ps。 
AL 
B. 吞吐 量 的 上 限 等 于 多 少 ? 


4.4.4” 带 反馈 的 流水 线 系统 

到 目前 为 止 ， 我们 只 考虑 一 种 系统 ， 其 中 传 过 流水 线 的 对 象 ， 无 论 是 汽车 、 人 或 者 指令 ， 相 
互 都 是 完全 独立 的 。 但 是 ， 对 于 像 IA32 或 Y86 这 样 执行 机 器 程序 的 系统 来 说 ， 相 邻 指令 之 间 很 
可 能 是 相关 的 。 例如 ， 考 虑 下 面 这 个 Y86 指令 序列 ， 


1 irmovl $50, 
, A 


3 mrmovl 100( %ebx) ) ，Yedx 


乾 4 偶 处 理 器 体 夭 结 堆 273 


1 irmov] $50,%heax 
2 add]l] Wheax,%ebx 
3 mrmovl] 100(%ebx) ,%edx 


在 这 个 包含 三 条 指令 的 序列 中 ， 每 对 相 邻 的 指令 之 间 都 有 数据 相关 《data dependency )， 
用 圈 起 来 的 寄存 器 名 字 和 它们 之 间 的 箭头 来 表示 。izmov1l 指令 (第 1 行 ) 将 它 的 结果 存放 
在 seax 中 ， 然 后 addl 指令 (第 2 行 ) 要 读 这 个 值 ; 而 add1 指令 将 它 的 结果 存放 在 $ebx 
中 ，mzrmov1l 指令 (第 3 行 ) 要 读 这 个 值 。 

另 一 种 相关 是 由 于 指令 控制 流 造成 的 顺序 相关 。 来 看 看 下 面 这 个 Y86 指令 序列 : 

i loop: 
subl] Wedx ,hebx 
3 jne targ 
4 irmov] $10,%edx 
5 jmp loop 
6 targ: 
7 halt 

jne 指令 (第 3 行 ) 产生 了 一 个 控制 相关 〈control dependency)， 因 为 条 件 测试 的 结果 会 决 
定 要 执行 的 新 指令 是 irmov1l 指令 (第 4 行 ) 还 是 halt 指令 (第 7 行 )。 在 我 们 的 SEQ 设计 
中 ， 这 些 相关 都 是 由 反馈 路 径 来 解决 的 ， 如 图 4-22 的 右边 所 示 。 这 些 反 馈 将 更 新 后 的 寄存 器 值 
向 下 传送 到 寄存 器 文件 ， 将 新 的 PC 值 向 下 传送 到 PC 寄存 器 。 : 

图 4-38 举例 说 明了 将 流水 线 引 入 含有 反馈 路 径 的 系统 中 的 危险 。 在 原来 的 系统 〈 见 图 
4-38a) 中 ， 每 条 指令 的 结果 都 反馈 给 下 一 条 指令 。 流 水 线 图 〈 见 图 4-38b) 就 说 明了 这 个 情况 ， 
11 的 结果 成 为 了 2 的 输入 ， 依 次 类 推 。 如 果 试 图 以 最 直接 的 方式 将 它 转换 成 一 个 三 阶段 流水 线 
( 见 图 4-38c)， 我 们 将 改变 系统 的 行为 。 如 图 4-38c 所 示 ，I1 的 结果 成 为 14 的 输入 。 为 了 通过 流 
水 线 技术 加 速 系 统 ， 我 们 改变 了 系统 的 行为 。 

当 我 们 将 流水 线 技术 引入 Y86 处 理 器 时 ， 必须 正确 处 理 反馈 的 影响 很 明显 ， 像 图 4-38 中 
的 例子 那样 改变 系统 的 行为 是 无 法 接受 的 。 0 i 制 相 
关 ， 以 使 得 到 的 行为 与 ISA 定义 的 模型 相符 。 


4.5 Y86 的 流水 线 实现 


我 们 终于 做 好 准备 开始 本 章 的 主要 任务 一 一 设计 一 个 流水 线 化 的 Y86 处 理 器 。 首 先 ， 对 顺 
序 的 SEQ 处 理 器 做 一 点 儿 小 的 改动 ， 将 PC 的 计算 挪 到 取 指 阶段 。 然 后 ， 在 各 个 阶段 之 间 加 上 
流水 线 寄存 器 。 到 这 个 时 候 ， 我 们 的 尝试 还 不 能 正确 处 理 各 种 数据 和 控制 相关 。 不 过 ， 做 一 些 修 
改 ， 就 能 实现 我 们 的 目标 一 一 一 个 高 效 的 、 流水 线 化 的 实现 Y86 ISA 的 处 理 器 。 

4.5.1 SEQ+ ; 重新 安排 计算 阶段 

作为 实现 流水 线 化 设计 的 一 个 过 渡 步 又 ， 我 们 必须 稍微 调整 一 下 SEQ 中 五 个 阶段 的 顺序 ， 使 得 
更 新 PC 阶段 在 一 个 时 钟 周期 开始 时 执行 ， 而 不 是 结束 时 才 执行 。 只 需要 对 整体 硬件 结构 做 最 小 的 改 
动 ， 对 于 流水 线 阶段 中 的 活动 的 时 序 ， 它 能 工作 得 更 好 。 我 们 称 这 种 修改 过 的 设计 为 “SEQ+”。 

我 们 移动 PC 阶段 ， 使 得 它 的 逻辑 在 时 钟 周期 开始 时 活动 ， 使 它 计 算 当 前 指令 的 PC 值 。 图 
4-39 给 出 了 SEQ 和 SEQ+ 在 PC 计算 上 的 不 同 之 处 。 在 SEQ 中 ( 见 图 4-39a)，PC 计算 发 生 在 
时 钟 周期 结束 的 时 候 ， 根 据 当 前 时 钟 周期 内 计算 出 的 信号 值 来 计算 PC 寄存 器 的 新 值 。 在 SEQ+ 中 
( 见 图 439b)， 我 们 创建 状态 寄存 器 来 保存 在 一 条 指令 执行 过 程 中 计算 出 来 的 信号 。 然 后 ， 当 一 个 
新 的 时 钟 周 期 开始 时 ， 这 些 信号 值 通过 同样 的 逻辑 来 计算 当前 指令 的 PC。 我 们 将 这 些 寄存 器 标号 为 
“pIcode”“pCnd” 等 等 ， 来 指明 在 任 一 给 定 的 周期 ， 它 们 保存 的 是 前 一 个 周期 中 产生 的 控制 信号 。 
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d) 流水 线 图 . 
图 4-38 ”由 逻辑 相关 造成 的 流水 线 技术 的 局 限 性 。 在 从 未 流水 线 化 的 带 反馈 的 系统 a) 转化 到 流水 线 
化 的 系统 〈c) 的 过 程 中 ， 我 们 改变 了 它 的 计算 行为 ， 可 以 从 两 个 流水 线 图 (b 和 d) 中 看 出 来 










3 这 人 A bo Ne ry 2 Tt i ~ 


Cnd pValC | pvalP 


b) SEQ+ 的 PC 选择 





icode Cng valC valM valP 
a) SEQ 的 新 PC 计算 
4-39 ”移动 计算 PC 的 时 间 。 在 SEQ+ 中 ， 我 们 将 计算 当前 状态 的 程序 计数 器 的 值 作为 指令 执行 的 第 一 步 


图 4-40 是 SEQ+ 硬件 更 为 详细 的 说 明 。 可 以 看 到 ， 其 中 的 硬件 单元 和 控制 块 与 我 们 在 SEQ 
中 用 的 (图 4-23) 一 样 ， 只 不 过 PC 逻辑 从 上 面 〈 在 时 钟 周期 结束 时 活动 ) 移 到 了 下 面 〈 在 时 钟 


周期 开始 时 活动 )。 
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SEQ+ 中 的 PC 在 哪里 

SEQ+ 有 一 个 很 奇怪 的 特性 ， oo 而 是 根据 从 前 一 
条 指令 保存 下 来 的 一 些 状 态 信 息 动 态 地 计算 PC。 这 就 是 一 个 小 小 的 证 明 我 们 可 以 以 一 种 与 
ISA 隐 含 着 的 概念 模型 不 同 的 方 ， 只 要 处 理 器 能 正确 执行 任意 的 机 器 语言 程序 。 我 
们 不 需要 按照 程序 员 可 见 的 状态 表明 的 方式 来 对 状态 进行 编码 ， 只 要 处 理 器 能 正确 地 执行 任意 的 
机 器 语言 程序 。 我 们 不 需要 将 状态 编码 成 程序 员 可 见 的 状态 指定 的 形式 ， 只 要 处 理 器 能 够 为 任意 
的 程序 员 可 见 状态 (例如 程序 计数 器 ) 产生 正确 的 值 。 在 创建 水 线 化 的 设计 中 ， 我 们 会 更 多 地 
使 用 到 这 条 原则 。5.7 节 中 描述 的 乱 序 (out-of-order) 处 理 技 术 ， 以 一 种 完全 不 同 于 机 器 级 程序 
中 出 现 顺序 的 次 序 来 执行 指令 ， 将 这 一 思想 发 挥 到 了 极致 。 

SEQ 到 SEQ+ 中 对 状态 元 素 的 改变 是 一 种 通用 的 改进 的 例子 ， 这 种 改进 称 为 电路 重 定 时 
retiming) [65]。 重 定时 改变 了 一 个 系统 的 状态 表示 ， 但 是 并 不 改变 它 的 逻辑 行为 。 通 常 

用 它 来 平衡 一 个 系统 中 各 个 阶段 之 间 的 延迟 。 





i instr_valid 


: imem_error 


二 基本 全 3 
SEE QSIM 





图 4-40 ”SEQ+ 的 硬件 结构 。 将 PC 计算 从 时 钟 周期 结束 时 移 到 了 开始 时 ， 使 之 更 适合 于 流水 线 
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4.5.2 ”插入 流水 线 寄存 器 

在 创建 一 个 流水 线 化 的 Y86 处 理 器 的 最 初 尝试 中 ， 我 们 要 在 SEQ+ 的 各 个 阶段 之 间 插 入 流 
水 线 寄 存 器 ， 并 对 信和 号 重新 排列 ， 得 到 PIPE- 处 理 器 ， 这 里 的 “-- ”代表 这 个 处 理 器 和 最 终 的 处 
理 器 设计 相 比 ， 性 能 要 差 一 点 。PIPE- 的 抽象 结构 如 图 4-41 所 示 。 流 水 线 寄 存 器 在 该 图 中 用 黑 
色 方 框 表示 ， 每 个 寄存 器 包括 不 同 的 字段 ， 用 白色 方 框 表示 。 正 如 多 个 字段 表明 的 那样 ， 每 个 流 
水 线 寄 存 器 可 以 存放 多 个 字 节 和 字 。 同 两 个 顺序 处 理 器 的 硬件 结构 〈 见 图 4-23 和 图 4-40) 中 的 
圆 角 方 框 不 同 ， 这 些 白色 的 方 框 表 示 实 际 的 硬件 组 成 。 





图 4-41 PIPE- 的 硬件 结构 ， 一 个 初始 的 流水 线 化 实现 。 通 过 往 SEQ+ (图 4-40) 中 插入 流水 线 寄存 
器 ， 我 们 创建 了 一 个 五 阶段 的 流水 线 。 这 个 版 本 有 几 个 缺陷 ， 稍 后 就 会 解决 这 些 问 题 
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可 以 看 到 ，PIPE-- 使 用 的 硬件 单元 与 顺序 设计 SEQ (图 4-40) 几乎 一 样 ， 只 是 有 流水 线 寄 
存 器 分 隔 开 这 些 阶 段 。 两 个 系统 中 信和 号 的 不 同 之 处 在 4.5.3 节 中 讨论 。 
流水 线 寄 存 器 按 以 下 方式 标号 : 
F 保存 程序 计数 器 的 预测 值 ， 稍 后 讨论 。 
D ”位 于 取 指 和 译 码 阶段 之 间 。 它 保存 关于 最 新 取出 的 指令 的 信息 ， 即 将 由 译 码 阶 段 进行 处 理 。 
E 位 于 译 码 和 执行 阶段 之 间 。 它 保存 关于 最 新 译 码 的 指令 和 从 寄存 器 文件 读 出 的 值 的 信 
息 ， 即 将 由 执行 阶段 进行 处 理 。 
M 位 于 执行 和 访 存 阶段 之 间 。 它 保存 最 新 执行 的 指令 的 结果 ， 即 将 由 访 存 阶段 进行 处 理 。 
它 还 保存 关于 用 于 处 理 条 件 转移 的 分 文 条 件 和 分 支 目 标的 信息 。 
W 位 于 访 存 阶段 和 反馈 路 径 之 间 ， 反 馈 路 径 将 计算 出 来 的 值 提供 给 寄存 器 文件 写 ， 而 当 完 
成 ret 指令 时 ， 它 还 要 向 PC 选择 逻辑 提供 返回 地 址 。 
图 4-42 表明 以 下 代码 序列 如 何 通 过 我 们 的 五 阶段 流水 线 ， 其 中 注释 将 各 条 指令 标识 为 
11 ~ I 以 便 引 用 : 


1 irmovl $1,%eax # IL 
这 irmov] $2,%hebx # I2 
3 irmovl $3,X%Wecx # I3 
4 irmovl $4,Xedx # I4 
5 halt # I5 


图 的 右边 是 这 个 指令 序列 的 流水 线 图 。 同 4.4 节 中 简单 流水 线 化 的 计算 单元 的 流水 线 图 一 
样 ， 这 个 图 描述 了 每 条 指令 通过 流水 线 各 个 阶段 的 行进 过 程 ， 时 间 从 左 往 右 增 大 。 上 面 一 条 数字 
表明 各 个 阶段 发 生 的 时 钟 周期 。 例 如 ， 在 周期 1 取出 指令 1， 然后 它 开始 通过 流水 线 各 个 阶段 ， 
到 周期 5 结束 后 ， 其 结果 写 人 寄存 器 文件 。 在 周期 2 取出 指令 2， 到 周期 6 结束 后 ， 其 结果 写 
回 ， 以 此 类 推 。 在 图 的 最 下 面 ， 是 当 周 期 为 5 时 的 流水 线 的 扩展 图 。 此 时 ， 每 个 流水 线 阶段 中 各 
有 一 条 指令 。 

从 图 4.42 中 还 可 以 判断 我 们 画 处 理 器 的 习惯 是 合理 的 ， 这 样 ， 指令 是 自 底 向 上 的 流动 的 。 
周期 5 时 的 扩展 图 表明 的 流水 线 阶段 ， 取 指 阶段 在 底部 ， 写 回 阶段 在 最 上 面 ， 同 流水 线 硬件 图 
( 见 图 4-41) 表明 的 一 样 。 如 果 看 看 流水 线 各 个 阶段 中 指令 的 顺序 ， 就 会 发 现 它们 出 现 的 顺序 与 
在 程序 中 列 出 的 顺序 一 样 。 因 为 正常 的 程序 是 从 上 到 下 列 出 的 ， 各 们 保 自 这 种 及 序 。 让 流水 线 从 
下 到 上 进行 。 在 使 用 本 书 附 带 的 模拟 器 时 ， 这 个 习惯 会 特别 有 用 。 

4.5.3 ”对 信号 进行 重新 排列 和 标号 人 

顺序 实现 SEQ 和 SEQ+ 在 一 个 时 刻 只 处 理 一 条 指令 ， 因 此 诸如 valC、areA 和 valB 这 样 的 信 
号 值 有 唯一 的 值 。 在 流水 线 化 的 设计 中 ， 与 各 个 指令 相关 联 的 这 些 值 有 多 个 版 本 ， 会 随 着 指令 一 
起 流 过 系统 。 例 如 ， 在 PIPE 的 详细 结构 中 ， 有 4 个 标号 为 “stat” 的 白色 方 框 ， 保 存 着 4 条 不 
同 指令 的 状态 码 〈 人 参见 图 4-41)。 我 们 需要 很 小 心 以 确保 使 用 的 是 正确 版 本 的 信号 ， 否 则 会 导致 
很 严重 的 错误 ， 例 如 将 一 条 指令 计算 出 的 结果 存放 到 了 另 一 条 指令 指定 的 目的 寄存 器 中 。 我 们 采 
用 的 命名 机 制 ， 通 过 在 信号 名 前 面 加 上 大 写 的 流水 线 寄存 器 名 字 作 为 前 级 ， 存 储 在 流水 线 寄存 
器 中 的 信号 可 以 唯一 的 被 标识 。 例 如 ，4 个 状态 码 可 以 命名 为 D_stat、BE_stat、M_stat 和 W_stat。 
我 们 还 需要 引用 某 些 在 一 个 阶段 内 刚刚 计算 出 来 的 信号 。 它 们 的 命名 是 在 信号 名 前 面 加 上 小 写 的 
阶段 名 的 第 一 个 字母 作为 前 级 。 以 状态 码 为 例 ， 可 以 看 到 在 取 指 和 访 存 阶段 中 标号 为 “stat” 的 
控制 逻辑 块 。 因 而 ， 这 些 块 的 输出 被 命名 为 f_stat 和 m_stat。 I 
状态 Stat 是 根据 流水 线 寄存 器 W 中 的 状态 值 ， 由 写 回 阶 段 中 的 块 计算 出 来 的 。 
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irmovl 


irmovl 
ijrmovl 
| irmovl 


halt 





图 4-42 指令 流通 过 流水 线 的 示例 


”信和 号 M_stat 和 m_stat 的 差别 

在 命名 系统 中 ， 大 写 的 前 组 “D”、“E”“M” 和 “W” 指 的 是 流水 线 寄存 器 ， 所 以 M_stat 
旨 的 是 流水 线 寄存 器 M 的 状态 码 字段 。 小 写 的 前 级 “f”、“d”“e”“m” 和 “Ww” 指 的 是 流水 
线 阶段 ， 所 以 m_stat 指 的 是 在 访 存 阶 段 中 由 控制 逻辑 块 产生 出 的 状态 信号 。 

”理解 这 个 命名 规则 对 理解 我 们 的 流水 线 化 的 处 理 器 的 操作 是 至 关 重 要 的 。 


SEQ+ .和 PIPE 的 译 码 阶段 都 产生 信号 dstE 和 dstM， 它 们 指明 值 valE 和 valM 的 目的 
寄存 器 。 在 SEQ+ 中 ， 可 以 将 这 些 信 号 直接 连 到 寄存 器 文件 写 端 口 的 地 址 输入 。 在 PIPE- 中 ， 
会 在 流水 线 中 一 直 携 带 这 些 信和 号 穿 过 执行 和 访 存 阶段 ， 直 到 写 回 阶段 才 送 到 寄存 器 文件 (如 各 个 
阶段 的 详细 描述 所 示 )。 我 们 这 样 做 是 为 了 确保 写 端口 的 地 址 和 数据 输入 是 来 自 同一 条 指令 。 否 
- 则 ， 会 将 处 于 写 回 阶段 的 指令 的 值 写 人 ， 而 寄存 器 ID 却 来 自 于 处 于 译 码 阶段 的 指令 。 作 为 一 条 


”通用 原则 ， 我 们 要 保存 处 于 一 个 流水 线 阶段 中 的 指令 的 所 有 信息 。 


PIPE 中 有 一 个 块 在 相同 表示 形式 的 SEQ+ 中 是 没有 的 ， 那 就 是 译 码 阶段 中 标号 为 “Select 
A” 的 块 。 我 们 可 以 看 出 ， 这 个 块 会 从 来 自流 水 线 寄存 器 D 的 valP 或 从 寄存 器 文件 A 端口 中 
读 出 的 值 中 选择 一 个 ,. 作为 流水 线 寄存 器 EE 的 值 val1A。 包 含 这 个 块 是 为 了 减少 要 携带 给 流水 线 
寄存 器 E 和 M 的 状态 数量 。 在 所 有 的 指令 中 ， 只 有 call 在 访 存 阶段 需要 valP 的 值 。 只 有 跳 
转 指令 在 执行 阶段 ( 当 不 需要 进行 跳 转 时 ) 需要 valP 的 值 。 而 这 些 指令 又 都 不 需要 从 寄存 器 文 
件 中 读 出 的 值 。 因 此 我 们 合并 这 两 个 信号 ， 将 它们 作为 信号 valA 携带 穿 过 流水 线 ， 从 而 减少 
流水 线 寄 存 器 的 状态 数量 。 这 样 做 就 消除 了 SEQ 〈 见 图 4-23) 和 SEQ+( 见 图 4-40) 中 标号 为 
“Data” 的 块 ， 这 个 块 完成 的 是 类 似 的 功能 。 在 硬件 设计 中 ， 像 这 样 仔细 确认 信号 是 知 何 使 用 的 ， 
然后 通过 合并 信和 号 来 减少 寄存 器 状态 和 线路 的 数量 ， 是 很 常见 的 。 

如 图 4-41 所 示 ， 我 们 的 流水 线 寄存 器 包括 一 个 状态 码 Stat 字段 ， 开始 时 是 在 取 指 阶段 计算 
出 来 的 ， 在 访 存 阶段 有 可 能 会 被 修改 。 在 讲 完 正常 指令 执行 的 实现 之 后 ， 我 们 会 在 4.5.9 节 中 讨 
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论 如 何 实现 异常 事件 的 处 理 。 到 目前 为 止 我 们 可 以 说 ， 最 系统 的 方法 就 是 让 与 每 条 指令 关联 的 状 
态 码 与 指令 一 起 通过 流水 线 ， 就 像 图 中 表明 的 那样 。 
4.5.4 预测 下 -个 PC 

在 PIPB 设计 中 ， 我 们 采取 了 一些 措施 米 正 确 处 理 控制 相 关 。 流 水 线 化 设计 的 目的 就 是 和 
个 时 钟 周期 都 发 射 一 条 新 指令 ， 也 就 是 说 每 个 时 钟 周期 都 有 一 条 新 指令 进入 执行 阶段 并 最 终 完 
成 。 要 是 达到 这 个 目的 就 意味 着 吞吐 量 是 每 个 时 钟 周期 一 条 指令 。 要 做 到 这 一 点 ， 我 们 必须 在 取 
出 当前 指令 之 后 ， 马 上 确定 下 一 条 指令 的 位 置 。 不 幸 的 是 ， 如 果 取 出 的 指令 是 条 件 分 支 指令 ， 要 
到 几 个 周期 后 ， 也 就 是 指令 通过 执行 阶段 之 后 ， 我 们 才能 知道 是 否 要 选择 分 支 。 类 似 地 ， 如 果 取 
出 的 指令 是 ret， 要 到 指令 通过 访 存 阶段 ， 才 能 确定 返回 地 址 。 

除了 条 件 转移 指令 和 ret 以 外 ,根据 取 指 阶段 中 计算 出 的 信息 ， 我 们 能 够 确定 下 一 条 指令 
的 地 址 。 对 于 call 和 jmp (无 条 件 转移 ) 来 说 ， 下 一 条 指令 的 地 址 是 指令 中 的 常数 字 valc， 
而 对 于 其 他 指令 来 说 就 是 valP。 因 此 ， 通 过 预测 PC 的 下 一 个 值 ， 在 大 多 数 情况 下 ， 我 们 能 达 
到 每 个 时 钟 周期 发 射 一 条 新 指令 的 目的 。 对 大 多 数 指令 类 型 来 说 ， 我 们 的 预测 是 完全 可 靠 的 。 对 
条 件 转移 来 说 ， 我 们 既 可 以 预测 选择 了 分 支 ， 那 么 新 PC 值 应 为 val1c， 也 可 以 预测 没有 选择 分 
支 ， 那 么 新 PC 值 应 为 valP。 无 论 娜 种 情况 ， 我 们 都 必须 以 某 种 方式 来 处 理 预测 错误 的 情况 ， 
因为 此 时 已 经 取出 并 部 分 执行 了 错误 的 指令 。 我 们 会 在 4.5.11 节 中 再 讨论 这 个 问题 。 

猜测 分 支 方向 并 根据 猜测 开始 取 指 的 技术 称 为 分 支 预 测 。 实 际 上 所 有 的 处 理 器 都 采用 了 此 类 
技术 的 某 种 形式 。 对 于 预测 是 否 选择 分 支 的 有 效 策略 已 经 进行 了 广泛 的 研究 [49，2.3 节 ]。 有 的 
系统 花费 了 大 量 硬件 来 解决 这 个 任务 。 我 们 的 设计 只 使 用 了 简单 的 策略 ， 即 总 是 预测 选择 了 条 件 
分 支 ， 因 而 预测 PC 的 新 值 为 valc。 


其 他 的 分 支 预测 策略 

我 们 的 设计 使 用 总 是 选择 (always taken ) 分 支 的 预测 策略 。 研究 表明 这 个 策略 的 成 功率 大 
约 为 60%[47，120]。 相 反 ， 从 不 选择 (never taken，NT) 策略 的 成 功率 大 约 为 40%。 和 精微 复 杂 
一 点 的 是 反 向 选择 、 正 向 不 选择 (backward taken，forward not-taken，BTFNT) 的 策略 ， 当 分 支 
地 址 比 下 一 条 地 址 低 时 就 预测 选择 分 支 ， 而 分 支 地 址 比较 高 时 ， 就 预测 不 选择 分 支 。 这 种 策略 的 
成 功率 大 约 为 65%。 这 种 改进 源 自 一 个 事实 ， 即 循环 是 由 后 向 分 支 结束 的 ， 而 循环 通常 会 执行 
多 次 。 前 向 分 支 用 于 条 件 操 作 ， 而 这 种 选择 的 可 能 性 较 小 。 在 家 庭 作 业 4.54 和 4.55 中 ， 你 可 以 
修改 Y86 流水 线 处 理 器 来 实现 NT 和 BTFNT 分 支 预测 策略 。 

正如 我 们 在 3.6.6 节 中 看 到 的 ， 分 支 预测 错误 会 极 大 地 降低 程序 的 性 能 ， 因 此 就 促使 我 们 在 
可 能 的 时 候 ， 要 使 用 条 件数 据 传 送 而 不 是 条 件 控制 转移 。 


我 们 还 没有 讨论 预测 ret 指令 的 新 PC 值 。 同 条 件 转移 不 同 ， 此 时 可 能 的 返回 值 几乎 是 无 限 
的 ， 因 为 返回 地 址 位 于 栈 顶 的 字 ， 其 内 容 可 以 是 任意 的 。 在 设计 中 ， 我 们 不 会 试图 对 返回 地 址 做 
任何 预测 。 只 是 简单 地 暂停 处 理 新 指令 ， 直 到 ret 指令 通过 写 回 阶段 。 在 4.5.11 节 ， 我 们 将 回 
来 讨论 这 部 分 的 实现 。 


使 用 栈 的 返回 地 址 预测 
对 大 多 数 程 序 来 说 ， 预 测 返回 值 很 容易 ， 因 为 过 程 调 用 和 返回 是 成 对 出 现 的 。 大 多 数 函 数 调 
用 ， 会 返回 到 调用 后 的 那 条 指令 。 高 性 能 处 理 器 运用 了 这 个 属性 ， 在 取 指 单元 中 放 入 一 个 硬件 
栈 ， 保 存 过 程 调用 指令 产生 的 返回 地 址 。 每 次 执行 过 程 调用 指令 时 ， 部 将 其 返回 地 址 压 入 栈 中 。 
当 取 出 一 个 返回 指令 时 ， 就 从 这 个 栈 中 弹出 顶部 的 值 ， 作 为 预测 的 返回 值 。 同 分 支 预测 一 样 ， 在 
预测 错误 时 必须 提供 一 个 恢复 机 制 ， 因 为 还 是 有 调用 和 返回 不 匹配 的 时 候 。 通 常 ， 这 种 预测 很 可 
靠 。 这 个 硬件 栈 对 程序 员 来 说 是 不 可 见 的 。 
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PIPE 的 取 指 阶段 ， 如 图 4-41 底部 所 示 ， 负 责 预 测 PC 的 下 一 个 值 ， 以 及 为 取 指 选择 实际 
的 PC。 我 们 可 以 看 到 ， 标 号 为 “Predict PC” 的 块 会 在 PC 增加 器 计算 出 的 valP 和 取出 的 指令 
中 得 到 的 valc 中 进行 选择 。 这 个 值 存放 在 流水 线 寄存 器 FF 中 ， 作 为 程序 计数 器 的 预测 值 。 标 号 
为 “Select PC” 的 块 类 似 于 SEQ+ 的 PC 选择 阶段 中 标号 为 “PC” 的 块 ( 见 图 4-40)。 它 从 三 个 
值 中 选择 一 个 作为 指令 存储 器 的 地 址 ; 预测 的 PC， 对 于 到 达 流 水 线 寄 存 器 M 的 不 选择 分 支 的 指 
令 来 说 是 valP 的 值 (存储 在 寄存 器 M_valAa 中 )， 或 是 当 ret 指令 到 达 流 水 线 寄存 器 W〈 存 储 
在 W_valM) 时 的 返回 地 址 的 值 。 ， 

. 当 我 们 在 4.5.11 节 完 成 流水 线 控制 逻辑 时 ， 会 返回 来 处 理 跳 转 和 返回 指令 。 

4.5.5 流水 线 冒险 

PIPE— 结构 是 创建 一 个 流水 线 化 的 Y86 处 理 器 的 好 开端 。 不 过 ， 回 忆 4.4.4 节 中 的 讨论 ， 将 
流水 线 技术 引入 一 个 带 反 馈 的 系统 ， 当 相 邻 指令 间 存 在 相关 时 会 导致 出 现 问题 。 在 完成 我 们 的 设 
计 之 前 ， 必 须 解 决 这 个 问题 。 这 些 相关 有 两 种 形式 : 1) 数据 相关 ， 下 一 条 指令 会 用 到 这 一 条 指 
令 计 算出 的 结果 ; 2) 控制 相关 ， 一 条 指令 要 确定 下 一 条 指令 的 位 置 ， 例 如 在 执行 跳 转 、 调 用 或 
返回 指令 时 。 这 些 相关 可 能 会 导致 流水 线 产生 计算 错误 ， 称 为 冒险 (hazard)。 同 相关 一 样 ， 冒 
险 也 可 以 分 为 两 类 : 数据 冒险 〈data hazard) 和 控制 冒险 〈control hazard)。 本 节 关 注 的 是 数据 冒 
险 。 我 们 会 将 控制 冒险 作为 整个 流水 线 控制 的 一 部 分 加 以 讨论 (4.5.11 节 )。 

图 4-43 描述 的 是 PIPE 处 理 器 处 理 Progl 指令 序列 的 情况 。 假 设 在 这 个 例子 以 及 后 面 的 
例子 中 ， 程 序 寄 存 器 初始 值 都 为 0。 这 段 代码 将 值 10 和 3 放 人 程序 寄存 器 sedx 和 $eax， 执 行 
3 条 nop 指令 ， 然 后 将 寄存 器 sedx 加 到 seax。 我 们 重点 关注 两 条 irmov1 指令 和 addl 指令 
之 间 的 数据 相关 导致 的 可 能 的 数据 冒险 。 图 的 右边 是 这 个 指令 序列 的 流水 线 图 。 图 中 重点 显示 
了 周期 6 和 7 的 流水 线 阶 段 。 流 水 线 图 的 下 面 是 周期 6 中 写 回 活动 和 周期 7 中 译 码 活动 的 扩展 
说 明 。 在 周期 7 开始 以 后 ， 两 条 irmov1 都 已 经 通过 写 回 阶段 ， 所 以 寄存 器 文件 保存 着 更 新 过 
的 sedx 和 seax 的 值 。 因 此 ， 当 add1 指令 在 周期 7 经 过 译 码 阶段 时 ， 它 可 以 读 到 源 操作 数 的 
正确 值 。 在 此 示例 中 ， izmov1 指令 和 add1 指令 之 辣 的 数据 相关 没有 造成 数据 冒险 。 

半 progl Ve 
Ox000: irmovl $10,%edx 
Ox006: irmovl $3,%eax 
OxO0c: nop 

Ox00d: nop 

0Ox00e: nop 

OxX00f: addl %edx,%eax 

Ox011: halt 


valA<- RI%edx] = 10 |. 
| valB<— R[peax] = 3 





图 4-43 prog1 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 6 中 ， 第 二 个 irmov1 将 结果 写 
人 寄存 器 $eax。add1l 指令 在 周期 7 读 源 操 作 数 ， 因 此 得 到 的 是 sedqx 和 %eax 的 正确 值 
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我 们 看 到 prog1l 通过 流水 线 并 得 到 正确 的 结果 ， 因 为 3 条 nop 指令 在 有 数据 相关 的 指令 
之 间 创 造 了 一 些 延 迟 。 让 我 们 来 看 看 如 果 去 掉 这 些 nop 指令 会 发 生 些 什么 。 图 本 44 描述 的 是 
prog2 程序 的 流水 线 流程 ， 在 两 条 产生 寄存 器 sedx 和 seax 值 的 irmov1l 指令 和 以 这 两 个 寄 
存 器 作为 操作 数 的 addl 指令 之 间 有 两 条 nop 指令 。 在 这 种 情况 下 ， 关 键 步骤 发 生 在 周期 6， 此 
时 addl 指令 从 寄存 器 文件 中 读 取 它 的 操作 数 。 该 图 底部 是 这 个 周期 内 流水 线 活动 的 扩展 描述 。 
第 一 个 irmov1 指令 已 经 通过 了 写 回 阶段 ， 因 此 程序 寄存 器 $edx 已 经 在 寄存 器 文件 中 更 新 了 。 
在 该 周期 内 ， 第 二 个 irmov1 指令 处 于 写 回 阶段 ， 因 此 对 程序 寄存 器 $eax 的 写 要 到 周期 7 开 
始 ， 时 钟 上 升 时 ， 才 会 发 生 。 结 果 ， 会 读 出 seax 的 错误 值 〈 回 想 我 们 假设 所 有 的 寄存 器 的 初始 
值 为 0)， 因 为 对 该 寄存 器 的 写 还 未 发 生 。 很 明显 ， 我 们 必须 改进 流水 线 让 它 能 够 正确 处 理 这 样 
的 冒险 。 


: irmovl $10 ,yedx 


: irmov] $3,%heax 


:nop 


: nop 
: addl Yedx ,Yeax 
: halt 





图 4-44 prog2 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 直 到 周期 7 结束 时 ， 对 寄存 器 $eax 
的 写 才 发 生 ， 所 以 addl 指令 在 译 码 阶段 读 出 的 是 该 寄存 器 的 错误 值 


图 4-45 是 当 irmov1 指令 和 adql 指令 之 间 只 有 一 条 nop 指令 ， 即 为 程序 Prog3 时 ， 发 
生 的 情况 。 现 在 我 们 必须 检查 周期 5 内 流水 线 的 行为 ， 此 时 addl 指令 通过 译 码 阶段 。 不 幸 
的 是 ， 对 寄存 器 sedx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 seax 的 写 还 处 在 访 存 阶段 。 因 此 ， 
addl 指令 会 得 到 两 个 错误 的 操作 数 。 

图 4-46 是 当 去 掉 irmov1 指令 和 addl 指令 间 的 所 有 nop 指令 ， 即 为 程序 prog4 时 ， 发 
生 的 情况 。 现 在 我 们 必须 检查 周期 4 内 流水 线 的 行为 ， 此 时 addl 指令 通过 译 码 阶段 。 不 幸 的 
是 ， 对 寄存 器 sedx 的 写 仍 处 在 访 存 阶段 ， 而 执行 阶段 正在 计算 寄存 器 seax 的 新 值 。 因 此 ， 
addl 指令 的 两 个 操作 数 都 是 不 正确 的 。 

这 些 例 子 说 明 ， 如 果 一 条 指令 的 操作 数 被 它 前 面 三 条 指令 中 的 任意 一 条 改变 的 话 ， 都 会 出 现 数 
据 冒 险 。 之 所 以 会 出 现 这 些 冒 险 ， 是 因为 我 们 的 流水 线 化 的 处 理 器 是 在 译 码 阶段 从 寄存 器 文件 中 读 
取 指 令 的 操作 数 ， 而 要 到 三 个 周期 以 后 ， 指令 经 过 写 回 阶段 时 ， 才 会 将 指令 的 结果 写 到 寄存 器 文件 。 
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# prog3 
Ox000: irmovl $10 ,hedx 


Ox006: irmov] $3,heax 
OxO0c: nop 


Ox00d: addl1 %edx,%eax 
Ox00f: halt 


M valf = 3 
wh ES = ea 


valA 4 一 RI%edx] = 
valB 4 一 ea] 一 





图 4-45 prog3 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 5，aqd1 指令 从 寄存 器 文件 中 读 

源 操作 数 。 对 寄存 器 $edx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 $eax 的 写 还 在 访 存 阶段 。 两 
个 操作 数 valA 和 valB 得 到 的 都 是 错误 值 

# prog4 

Ox000: irmovl $10,%edx 

Ox006: irmovl.- $3,heax 

0x00c: add] %edx,heax 

Ox0O0e: halt 


M_valE = 10 
M_dstE = hedx 


e valE<—0+3=3 
E: -dstE = heax 


valA 4 一 R[%edzx] 一 0 
valB<— RI%eax] = 


Re 


图 4.46 progd 的 流水 线 化 的 搞 行 ， 没 有 特殊 的 流水 线 控制 。 i 指令 人 寄存 器 文件 中 
读 源 操作 数 。 对 寄存 器 sedx 的 写 仍 处 在 访 存 阶段 ， 而 执行 阶段 正在 计算 寄存 器 seax 的 新 
值 。 两 个 操作 数 valA 和 valB 得 到 的 都 是 错误 值 
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列举 数据 冒险 的 类 型 , 

当 一 条 指令 更 新 后 面 指令 会 读 到 的 那些 程序 状态 时 ， 就 有 可 能 出 现 冒 险 。 对 于 Y86 来 说 ， 
程序 状态 包括 程序 寄存 器 、 程 序 计 数 器 、 存 储 器 、 条 件 码 寄存器 和 状态 寄存 器 。 让 我 们 来 看 看 在 
提出 的 设计 中 每 类 状态 出 现 冒 险 的 可 能 性 。 

程序 寄存 器 : 我 们 已 经 认识 这 种 冒险 了 。 出 现 这 种 冒险 因为 寄存 器 文件 的 读 写 是 在 不 同 的 阶 
段 进 行 的 ， 导 致 不 同 指令 之 间 可 能 出 现 不 希望 的 相互 作用 。 

程序 计数 器 : 更 新 和 读 取 程 序 计数 器 之 间 的 冲突 导致 了 控制 冒险 。 当 我 们 的 取 指 阶段 远 辑 
在 取 下 一 条 指令 之 前 ， 正 确 预 测 了 程序 计数 器 的 新 值 时 ， 就 不 会 产生 冒险 。 预 测 错误 的 分 支 和 
ret 指令 需要 特殊 的 处 理 ， 会 在 4.5.11 节 中 讨论 。 

存储 器 : 对 数据 存储 器 的 读 和 写 都 发 生 在 访 存 阶段 。 在 一 条 读 存储 器 的 指令 到 达 这 个 阶段 之 
前 ， 前 面 所 有 要 写 存储 器 的 指令 都 已 经 完成 这 个 阶段 。 另 外 ， 在 访 存 阶段 中 写 数 据 的 指令 和 在 取 
指 阶段 中 读 指 令 之 间 也 有 冲突 ， 因 为 指令 和 数据 存储 器 访问 的 是 同一 个 地 址 空间 。 只 有 包含 自我 
修改 代码 的 程序 才 会 发 生 这 种 情况 ， 在 这 样 的 程序 中 ， 指 令 写 存储 器 的 一 部 分 ， 过 后 会 从 中 取出 
指令 。 有 些 系 统 有 复杂 的 机 制 来 检测 和 避免 这 种 冒险 ， 而 有 些 系统 只 是 简单 地 强制 要 求 程序 不 应 
该 使 用 自我 修改 代码 。 为 了 简便 ， 假设 程序 不 能 修改 自身 ， 因 此 我 们 不 需要 采取 特殊 的 措施 ， 根 
据 在 程序 执行 过 程 中 对 数据 存储 器 的 修改 来 修改 指令 存储 器 。 

条 件 码 寄存 器 : 在 执行 阶段 中 ， 整 数 操作 会 写 这 些 寄 存 器 。 条 件 传 送 指令 会 在 执行 阶段 以 及 
条 件 转 移 会 在 访 存 阶段 读 这 些 寄存 器 。 在 条 件 传 送 或 转移 到 达 执 行 阶段 之 前 ， 前 面 所 有 的 整数 操 
作 都 已 经 完成 这 个 阶段 ， 所 以 不 会 发 生 冒 险 。 

状态 寄存 器 : 指令 流 经 流水 线 的 时 候 ， 会 影响 程序 状态 。 我 们 采用 流水 线 中 的 每 条 指令 都 与 
一 个 状态 码 相关 联 的 机 制 ， 使 得 当 异 常 发 生 时 ， 处 理 器 能 够 有 条 理 地 停止 ， 就 像 在 4.5.9 节 中 会 
讲 到 的 那样 。 

这 些 分 析 表 明 我 们 只 需要 处 理 寄 存 器 数据 冒险 、 控 制 置 险 ， 以 及 确保 能 够 正确 处 理 异常 。 当 
设计 一 个 复杂 系统 时 ， 这 样 的 分 类 分 析 是 很 重要 的 。 这 样 做 可 以 确认 出 系统 实现 中 可 能 的 困难 ， 
还 可 以 指导 生成 用 于 检 查 系统 正 确 性 的 测试 程序 。 


4.5.6 用 暂停 来 避免 数据 冒险 

暂停 (stalling) 是 避免 冒险 的 一 种 常用 技术 ， 和 暂停 时 ， 处 理 器 会 停止 流水 线 中 一 条 或 多 条 指 
令 ， 直 到 冒险 条 件 不 再 满足 。 让 一 条 指令 停顿 在 译 码 阶段 ， 直 到 产生 它 的 源 操 作 数 的 指令 通过 
了 写 回 阶段 ， 这 样 我 们 的 处 理 器 就 能 避免 数据 冒险 。 这 种 机 制 的 细节 会 在 4.5.11 节 讨 论 。 它 对 流 
水 线 控制 逻辑 做 了 一 些 简 单 的 加 强 。 图 4-47 (Prog2) 和 图 4-48 (Prog4) 画 出 了 暂停 的 效果 。 
(在 这 里 的 讨论 中 我 们 省 略 了 prog3， 因 为 它 的 运行 类 似 于 其 他 两 个 例子 。) 当 指 令 addl 处 于 
译 码 阶段 时 ， 流 水 线 控制 逻辑 发 现 执行 、 访 存 或 写 回 阶段 中 至 少 有 一 条 指令 会 更 新 寄存 器 $edx 
或 seax。 处 理 器 不 会 让 add1 指令 带 着 不 正确 的 结果 通过 这 个 阶段 ， 而 是 会 暂停 指令 ， 将 它 阻 
塞 在 译 码 阶段 ， 时 间 为 一 个 周期 (对 prog2 来 说 ) 或 者 三 个 周期 (对 prog4 来 说 )。 对 所 有 这 
三 个 程序 来 说 ，adqdl 指令 最 终 都 会 在 周期 7 中 得 到 两 个 源 操作 数 的 正确 值 ， 然 后 继续 沿 着 流水 
线 进行 下 去 。 

将 addl 指令 阻塞 在 译 码 阶段 时 ， 我 们 还 必须 将 紧 跟 其 后 的 halt 指令 阻塞 在 取 指 阶段 。 通 
过 将 程序 计数 器 保持 不 变 就 能 做 到 这 一 点 ， 这 样 一 来 ， 会 不 断 地 对 halt 指令 进行 取 指 ， 直 到 暂 
停 结束 。 

暂停 技术 就 是 让 一 组 指令 阻塞 在 它们 所 处 的 阶段 ， 而 允许 其 他 指令 继续 通过 流水 线 。 那 么 在 
本 该 正常 处 理 addl 指令 的 阶段 中 ， 我 们 该 做 些 什么 呢 ? 我 们 使 用 的 处 理 方法 是 : 每 次 要 把 一 条 
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指令 阻塞 在 译 码 阶段 ， 就 在 执行 阶段 插入 一 个 气泡 。 气 泡 就 像 一 个 自动 产生 的 nop 指令 一 一 它 
不 会 改变 寄存 器 、 存 储 器 、 条 件 码 或 程序 状态 。 在 图 4-47 和 图 4-48 的 流水 线 图 中 ， 白 色 方 框 表 
示 的 就 是 气泡 。 在 这 些 图 中 ， 我 们 用 一 个 addl 指令 的 标号 为 “D” 的 方 框 到 标号 为 “BE” 的 方 
框 之 间 的 箭头 来 表示 一 个 流水 线 气泡 ， 这 些 箭头 表明 ， 在 执行 阶段 中 揪 入 气泡 是 为 了 替代 add1 
指令 ， 它 本 来 应 该 经 过 译 码 阶段 进入 执行 阶段 。 在 4.5.11 节 ， 我 们 将 看 到 使 流水 线 暂 停 以 及 插入 
气泡 的 详细 机 制 。 和 - 


# prog2 . 


Ox000: irmovl $10,%edx 
Ox006: irmov] $3,heax 
0Ox00c: nop 
Ox00d: nop 

bubble 
0x00e: addl %edx, Xeax 
Ox010: halt 





图 4-47 prog2 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 6 中 对 add1 指令 译 码 之 后 ， 暂 停 控制 逻辑 发 现 
一 个 数据 冒险 ， 它 是 由 写 回 阶段 中 对 寄存 器 $eax 未 进行 的 写 造成 的 。 它 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addl 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 一 条 nop 指 
令 ， 得 到 的 执行 流 类 似 于 prog1 的 执行 流 〈 见 图 4-43) 


# prog4 

Ox000: irmovl $10,%edx 

0x006: Se $3,%eax 
bubble 


bubble 

bubble 

addl Wedx,heax 
halt 





图 4-48 prog4 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 4 中 对 addl 指令 译 码 之 后 ， 暂 停 控制 逻辑 发 
现 了 对 两 个 源 寄存 器 的 数据 冒险 。 它 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 5 中 重复 对 指令 
addl 的 译 码 。 它 再 次 发 现 对 两 个 源 寄存 器 的 冒险 ， 就 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周 
期 6 中 重复 对 指令 addl 的 译 码 。 它 再 次 发 现 对 寄存 器 seax 的 冒险 ， 就 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addl 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 3 条 nop 指 
令 ， 得 到 的 执行 流 类 似 于 progl 的 执行 流 〔 见 图 4-43) 


在 使 用 暂停 技术 来 解决 数据 冒险 的 过 程 中 ， 我 们 通过 动态 地 产生 和 Progl 流 〈 见 图 4-43 ) 
一 样 的 流水 线 流 ， 有 效 地 执行 了 程序 prog2 和 prog4。 为 prog2 揪 入 一 个 气泡 ， 为 prog4 插 
人 3 个 气泡 ， 与 在 第 二 条 izmov1l 指令 和 addl 指令 之 间 有 3 条 nop 指令 ， 有 相同 的 效果 。 虽 
然 实 现 这 一 机 制 相当 容易 (参考 家 庭 作 业 4.51)， 但 是 得 到 的 性 能 并 不 好 。 一 条 指令 更 新 一 个 寄 
存 器 ， 紧 跟 其 后 的 指令 就 使 用 被 更 新 的 寄存 器 ， 像 这 样 的 情况 不 胜 枚 举 。 这 会 导致 流水 线 暂停 长 
达 三 个 周期 ， 严 重 降低 了 整体 的 吞吐 量 。 
4.5.7” 用 转发 来 避免 数据 冒险 

我 们 PIPE-- 的 设计 是 在 译 码 阶 段 从 寄存 器 文件 中 读 人 源 操作 数 ， 但 是 对 这 些 源 寄存 器 的 写 
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有 可 能 要 在 写 回 阶段 才能 进行 。 与 其 暂停 直到 写 完成 ， 不 如 简单 地 将 要 写 的 值 传 到 流水 线 寄存 
器 E 作为 源 操作 数 。 图 4-49 用 prog2 周期 6 的 流水 线 图 的 扩展 描述 来 说 明了 这 一 策略 。 译 码 
阶段 逻辑 发 现 ， 寄 存 器 $eax 是 操作 数 valB 的 源 寄存 器 ， 而 在 写 端口 E 上 还 有 一 个 对 seax 的 
未 进行 的 写 。 它 只 要 简单 地 将 提供 到 端口 E 的 数据 字 ( 信 号 W_valE) 作为 操作 数 valB 的 值 ， 
就 能 避免 暂停 。 这 种 将 结果 值 直 接 从 一 个 流水 线 阶段 传 到 较 早 阶段 的 技术 称 为 数据 转发 〈data 
forwarding， 或 简称 转发 ， 有 时 称 为 旁 路 (bypassing))。 它 使 prog2 的 指令 能 通过 流水 线 而 不 需 
要 任何 暂停 。 数 据 转 发 需要 在 基本 的 硬件 结构 中 增加 一 些 额 外 的 数据 连接 和 控制 逻辑 。 


# prog2 

Ox000: irmovl] $10,%edx 
0x006: irmovl $3,%eax 
0OxX00c : nop 

Ox00d: nop 

0x00e: addl] %hedx ,yeax 
Ox010: halt 





srcA=%edx | valA< RI%edx] = 10 
SrcB = '%eax valB<— W_valf = 3 


图 4-49 prog2 使 用 转发 的 流水 线 化 的 执行 。 在 周期 6 中 ， 译 码 阶段 逻辑 发 现 有 在 写 回 阶段 中 对 寄存 
器 seax 未 进行 的 写 。 它 用 这 个 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 源 操作 数 valB 


如 图 4-50 所 示 ， 当 访 存 阶段 中 有 对 寄存 器 未 进行 的 写 时 ， 也 可 以 使 用 数据 转发 ， 以 避免 
程序 prog3 中 的 暂停 。 在 周期 5 中， 译 码 阶 段 逻 辑 发 现 ， 在 写 回 阶段 中 端口 E 上 有 对 寄存 
器 sedx 未 进行 的 写 ， 以 及 在 访 存 阶段 中 有 会 在 端口 E 上 对 寄存 器 seax 未 进行 的 写 。 它 不 会 暂 
停 直 到 这 些 写 真正 发 生 ， 而 是 用 写 回 阶段 中 的 值 ( 信 和 号 W_valE) 作为 操作 数 valA， 用 访 存 阶 
段 中 的 值 (信号 M_valE) 作为 操作 数 valB。 

为 了 充分 利用 数据 转发 技术 ， 我 们 还 可 以 将 新 计算 出 来 的 值 从 执行 阶段 传 到 译 码 阶段 ， 以 
避免 程序 prog4 所 需要 的 暂停 ， 如 图 4-51 所 示 。 在 周期 4 中 ， 译 码 阶 段 逻 辑 发 现在 访 存 阶段 中 
有 对 寄存 器 $edx 未 进行 的 写 ， 而 且 执 行 阶段 中 ALU 正在 计算 的 值 稍 后 也 会 写 人 寄存 器 $eax。 
它 可 以 将 访 存 阶段 中 的 值 ( 信 号 M_valE) 作为 操作 数 valA， 也 可 以 将 ALU 的 输出 (信号 
e_valE) 作为 操作 数 valB。 注 意 ， 使 用 ALU 的 输出 不 会 导致 任何 时 序 问题 。 译 码 阶段 只 要 在 
时 钟 周 期 结束 之 前 产生 信号 valA 和 valB， 在 时 钟 上 升 开 始 下 一 个 周期 时 ， 流 水 线 寄存 器 就 
能 装载 来 自 译 码 阶段 的 值 。 而 在 此 之 前 ALU 的 输出 已 经 是 合法 的 了 。 

程序 prog2 ~ prog4 中 描述 的 转发 技术 的 使 用 都 是 将 ALU 产生 的 以 及 其 目标 为 写 端口 E 
的 值 进行 转发 ， 其 实 也 可 以 转发 从 存储 器 中 读 出 的 以 及 其 目标 为 写 端 口 M 的 值 。 从 访 存 阶段 ， 
我 们 可 以 转发 刚刚 从 数据 存储 器 中 读 出 的 值 〈 信 号 m_valM)。 从 写 回 阶段 ， 我 们 可 以 转发 对 端 
口 M 未 进行 的 写 (信号 W_valM)。 这 样 一 共 就 有 5 个 不 同 的 转发 源 (@ valE、m vailM、 
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M_valE、W_valM 和 W valE)， 以 及 两 个 不 同 的 转发 目的 (valA 和 valB)。 


# prog3 
Ox000: irmov] $10,%edx 
Ox006: irmovl $3,W%eax 


0Ox00c: nop 
Ox00d: addl hedx ,Yeax 
OxO0f: halt 


a 


OR 
RI%edx]<— 10 


A 





图 4-50 prog3 使 用 转发 的 流水 线 化 的 执行 。 在 周期 5 中 ， 译 码 阶 段 逻辑 发 现 有 在 写 回 阶段 中 对 寄存 
”器 $edx 未 进行 的 写 ， 以 及 在 访 存 阶段 中 对 寄存 器 seax 未 进行 的 写 。 它 用 这 些 值 ， 而 不 是 
从 寄存 器 文件 中 读 出 的 值 ， 作 为 valA 和 valB 的 值 


# prog4 

Ox000: irmovl $10,%edx 
Ox006: irmovl $3 ,Yeax 
0x00c: addl %hedx,heax 
0x00e: halt 


E_dstE = heax 
e_valE4-0+3=3 


SrcA = hedx 
SrcB = heax 


.ER 





图 4-51 prog4 使 用 转发 的 流水 线 化 的 执行 。 在 周期 4 中 ， 译 码 阶段 逻辑 发 现 有 在 访 存 阶段 中 对 寄存 
器 sedx 未 进行 的 写 ， 还 发 现在 执行 阶段 中 正在 计算 寄存 器 seax 的 新 值 。 它 用 这 些 值 ， 而 
不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 valR 和 valB 的 值 
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图 4-49 一 图 4-51 的 扩展 图 还 表明 译 码 阶段 逻辑 能 够 确定 使 用 来 目 寄存 器 文件 的 值 ， 还 是 用 
转发 过 来 的 值 。 与 每 个 要 写 回 寄存 器 文件 的 值 相关 的 是 目的 寄存 器 了 DP。 逻 辑 会 将 这 些 ID 与 源 寄 
存 器 ID srcA 和 srcB 相 比 较 ， 以 此 来 检测 是 否 需要 转发 。 可 能 有 多 个 目的 寄存 器 ID 与 一 个 源 
ID 相等 。 要 解决 这 样 的 情况 ， 我 们 必须 在 各 个 转发 源 中 建立 优先 级 关系 。 在 学 习 转发 逻辑 的 详 
细 设 计时 ， 我 们 会 讨论 这 个 内 容 。 

图 4-52 是 PIPE 的 结构 ， 它 是 PIPE 的 扩展 ， 能 通过 转发 处 理 数据 冒险 。 将 这 幅 图 与 
PIPE- 的 结构 (图 4-41) 相 比 ， 我 们 可 以 看 到 来 自 5 个 转发 源 的 值 反 馈 到 译 码 阶段 中 两 个 标号 
为 “SeltFwd A” 和 “Fwd B” 的 块 。 标 号 为 “SeltFwd A” 的 块 是 PIPE 中 标号 为 “Select 
A” 的 块 的 功能 与 转发 逻辑 的 结合 。 它 允许 流水 线 寄 存 器 EE 的 vala 为 已 增加 的 程序 计数 器 值 
valP， 从 寄存 器 文件 A 端口 读 出 的 值 ， 或 者 某 个 转发 过 来 的 值 。 标 号 为 “Fwd B” 的 块 实现 的 
是 源 操作 数 valB 的 转发 逻辑 。 


er 
MEsrea. \ | ! 


i. imem_error : 
instr_valid ; 





图 4-52 流水线 化 的 最 终 实现 一 PIPE 的 硬件 结构 。 添加 的 旁 路 路 径 能 够 转发 前 面 三 条 指令 的 结果 。 
这 使 得 我 们 不 暂停 流水 线 就 能 够 处 理 大 多 数 形式 的 数据 冒险 
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4.5.8 加 载 / 使 用 数据 冒险 . 2 

Re 因为 存储 器 读 在 流水 线 发 生 的 比较 晚 图 4.53 举 
例 说 明了 加 载 / 使 用 冒险 (load/use hazard)， 其 中 一 条 指令 (位 于 地 址 0x018 的 mrmov1) 从 
存储 器 中 读 出 寄存 器 $eax 的 值 ， 而 下 一 条 指令 (位 于 地 址 0x01e 的 add1) 需要 该 值 作为 源 
操作 数 。 图 的 下 部 是 周期 7 和 8 的 扩展 说 明 ， 在 此 假设 所 有 的 程序 寄存 器 都 初始 化 为 0。adal 
指令 在 周期 7 中 需要 该 寄存 器 的 值 ， 但 是 mrmovl 指令 直到 周期 8 才 产生 这 个 值 。 为 了 从 
mtzmov1“ 转 发 到 ”adq1， 转发 逻辑 不 得 不 将 值 送 回 到 过 去 的 时 间 ! 这 显然 是 不 可 能 的 ， 我 们 

必须 找到 其 他 机 制 来 解决 这 种 形式 的 数据 冒险 。( 位 于 地 址 0x012 的 irmov1 指令 产生 的 寄存 
器 sebx 的 值 , 会 被 位 于 地 址 0x01le 的 add1l 指令 使 用 ， 转 发 能 够 处 理 这 种 数据 冒险 。) 


# prog5 

Ox000: irmov] $128 ,hedx 

Ox006: irmovl] $3,%hecx 

OxO0c: rmmovl] hecx, 0O(hedx) 

Ox012: irmov]l $10, Yebx 

Ox018: mrmov] O(hedx) ,heax # Load eg 
OxOle: addl Webx, Weax # Use Neax 

0x020: halt 


M_dstE = %ebx M_dstM = %eax 
M va 一 0 mh va MU ol 


|valA M_valE = . 
valB<— R[heax] 一 一 





图 4-53 加载/ 使 用 数据 冒险 的 示例 。addl 指令 在 周期 7 译 码 阶段 中 需要 寄存 器 seax 的 值 。 前 面 的 
mzmov1l 指令 在 周期 8 访 存 阶 段 中 读 出 这 个 寄存 器 的 新 值 ， 这 对 于 addl 指令 来 说 太 迟 了 


如 图 4-54 所 示 ， 我 们 可 以 将 暂停 和 转发 结合 起 来 ， 避 免 加 载 / 使 用 数据 冒险 。 这 需要 修改 
控制 逻辑 ， 但 是 可 以 使 用 现 有 的 旁 路 路 径 。 当 mrzmov1l 指令 通过 执行 阶段 时 ， 流 水 线 控制 逻辑 
发 现 译 码 阶段 中 的 指令 (add1) 需要 从 存储 器 中 读 出 的 结果 。 它 会 将 译 码 阶段 中 的 指令 暂停 一 
个 周期 ， 导 致 执行 阶段 中 插入 一 个 气泡 。 如 周期 8 的 扩展 说 明 所 示 ， 从 存储 器 中 读 出 的 值 可 以 
从 访 存 阶 段 转发 到 译 码 阶 段 中 的 addl 指令 。 寄 存 器 sebx 的 值 也 可 以 从 写 回 阶段 转发 到 访 存 阶 
段 。 就 像 流 水 线 图 ， 从 周期 7 中 标号 为 “D” 的 方 框 到 周期 8 中 标号 为 “E” 的 方 框 的 箭头 表明 
的 那样 ， 揪 入 的 气泡 代替 了 正常 情况 下 本 来 应 该 继续 通过 流水 线 的 add1 指令 。 

这 种 用 暂停 来 处 理 加 载 /使 用 冒险 的 方法 称 为 加 载 互 锁 〈load interlock)。 加 载 互 锁 和 转发 技 
术 结 合 起 来 足以 处 理 所 有 可 能 类 型 的 数据 冒险 。 因 为 只 有 加 载 互 锁 降 低 流 水 线 的 吞吐 量 ， 我 们 几 
乎 可 以 实现 每 个 时 钟 周 期 发 射 一 条 新 指令 的 吞吐 量 目标 。- 
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: irmov] $128,%edx. 

: irmov] $3,%ecx 

: rmmov] %ecx, 0(%edx) 

: irmov] $10,%ebx 

: mrmovl 0(YXYedx) ,%eax # Load %eax 

bubble 
OxOle: addl %ebx,heax # Use Yeax 
Ox020: halt 


W_dstE = %ebx 
W_valE = 10 





2 汪汪 
valA<—W _valE = 10 
ValBe—n m _valM = 3 


TOP e FOPIT ELI Tr Co Pep TT Ta tT 


图 4-54 用 暂停 来 处 理 加 载 / 使 用 冒险 。 通过 将 addl 指令 在 译 码 阶段 暂停 一 个 周期 ， 就 可 以 将 valB 
的 值 从 访 存 阶段 中 的 mrmov1l 指令 转发 到 译 码 阶段 中 的 addl 指令 


4.5.9 . 异常 处 理 

正如 第 8 章 将 讨论 的 ， 处 理 器 中 很 多 事情 都 会 导致 异常 控制 流 ， 此 时 ， 程 序 执行 的 正常 流程 
被 破坏 掉 。 异 常 可 以 由 程序 执行 从 内 部 产生 ， 也 可 以 由 某 个 外 部 信号 从 外 部 产生 。 我 们 的 指令 集 
体系 结构 包括 三 种 不 同 的 内 部 产生 的 异常 : 1) halt 指令 ，2) 有 非法 指令 和 功能 码 组 合 的 指令 ， 
3) 取 指 或 数据 读 写 试图 访问 一 个 非法 地 址 。 一 个 更 完整 的 处 理 器 设计 应 该 也 能 处 理 外 部 异常 例 
如 当 处 理 器 收 到 一 个 网 络 接口 收 到 新 包 的 信号 ， 或 是 一 个 用 户 点 击 鼠 标 按钮 的 信号 。 正 确 处 理 异 
常 是 任何 微 处 理 器 设计 中 很 有 挑战 性 的 一 方面 。 异 常 可 能 出 现在 不 可 预测 的 时 间 ， 需 要 明确 地 中 
断 通 过 处 理 器 流水 线 的 指令 流 。 我 们 对 这 三 种 内 部 异常 的 处 理 只 4 是 让 你 对 正确 发 现 和 处 理 异 常 的 
真实 复杂 性 略 有 了 解 。 

我 们 把 导致 异常 的 指令 称 为 异常 指令 (excepting instmuction)。 在 使 用 非法 指令 地 址 的 情况 
中 ， 没 有 实际 的 异常 指令 ， 但 是 想象 在 非法 地 址 处 有 一 种 “虚拟 指令 ”会 有 所 帮助 。 在 简化 的 
ISA 模型 中 ， 我 们 希望 当 处 理 器 遇 到 异常 时 ， 会 停止 ， 设置 适当 的 状态 码 ， 如 图 4-5 所 示 。 看 上 
去 应 该 是 到 异常 指令 之 前 的 所 有 指令 都 已 经 完成 ， 而 其 后 的 指令 都 不 应 该 对 程序 员 可 见 的 状态 产 
生 任 何 影响 。 在 一 个 更 完整 的 设计 中 ， 处 理 器 会 继续 调用 异常 处 理 程序 (exception handler)， 这 
是 操作 系统 的 一 部 分 ， 但 是 实现 异常 处 理 的 这 部 分 超出 了 本 书 的 范围 。 

在 一 个 流水 线 化 的 系统 中 ， 蜡 常 处 理 包括 一 些 细节 问题 。 首 先 ， 可 能 同时 有 多 条 指令 会 引起 
异常 。 例 如 ， 在 一 个 流水 线 操作 的 周期 内 ， 取 指 阶 段 中 有 halt 指令 ， 而 数据 存储 器 会 报告 访 存 
阶段 中 的 指令 数据 地 址 越界 。 我 们 必须 确定 处 理 器 应 该 向 操作 系统 报告 哪个 异常 。 基本 原则 是 : 
由 流水 线 中 最 深 的 指令 引起 的 异常 ,优先 级 最 高 。 在 上 面 那个 例子 中 ， 应 该 报告 访 存 阶 段 中 指令 
的 地 址 越界 。 就 机 器 语言 程序 来 说 ， 访 存 阶段 中 的 指令 本 来 应 该 在 取 指 阶段 中 的 指令 开始 之 前 就 
结束 的 ， 所 以 ， 只 应 该 向 操 作 系统 报告 这 个 异常 。 
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第 二 个 细节 问题 是 ， 当 首先 取出 一 条 指令 ， 开 始 执行 时 ， 导 致 了 一 个 异常 ， 而 后 来 由 于 分 支 
顶 测 错误 ， 取 消 了 该 指令 。 下 面 就 是 一 个 这 样 程序 示例 的 目标 代码 : 

0x000: 6300 | Xor] heax,%heax 

Ox002: 740e000000 | jne Target # Not taken 

Ox007: 30f001000000 | irmov] $1, heax # Fall through 

Ox00d: 00 | halt 

Ox00e : | Target: 

OxO0e: ff | .byte OxFF # Invalid instruction code 


在 这 个 程序 中 ， 流 水 线 会 预测 选择 分 支 ， 因 此 它 会 取出 并 以 一 个 值 为 0xFF 的 字 节 作为 指令 
(由 汇编 代码 中 .byte 命令 产生 的 )。 译 码 阶 段 会 因此 发 现 一 个 非法 指令 蜡 利 。 稍 后 ， 流 水 线 会 
发 现 不 应 该 选择 分 支 ， 因 此 根本 就 不 应 该 取出 位 于 地 址 0x00e 的 指令 。 流 水 线 控 制 逻辑 会 取消 
该 指令 ,但 是 我 们 想 要 避免 出 现 异常 。 

第 三 个 细节 问题 的 产生 是 因为 流水 线 化 的 处 理 器 会 在 不 同 的 阶段 更 新 系统 状态 的 不 同 部 分 。 
有 可 能 会 出 现 这 样 的 情况 : 一 条 指令 导致 了 一 个 异常 ， 它 后 面 的 指令 在 异常 指令 完成 之 前 改变 了 
部 分 状态 。 比 如 说 ， 考 虑 下 面 的 代码 序列 ， 其 中 假设 不 允许 用 户 程序 访问 大 于 0xc0000000 的 
地 址 (与 32 位 Linux 版 本 的 情况 一 样 ) : 
irmov] $1,heax 
xorl hesp,hesp # Set stack pointer to 0 and CC to 100 


pushl %eax # Attempt to write to Oxfffffffc 
addl ‘Weax ,heax # (Should not be executed) Would set CC to 000 


pushl 指令 导致 一 个 地 址 异常 ， 因 为 减 小 栈 指针 会 导致 它 绕 回 到 0xfffffffc。 在 访 存 阶 
段 会 发 现 这 个 异常 。 在 同一 周期 中 ，add1 指令 处 于 执行 阶段 ， 而 它 会 将 条 件 码 设置 成 新 的 值 。 
这 就 会 违反 异常 指令 之 后 的 所 有 指令 都 不 能 影响 系统 状态 的 要 求 。 

”一 般 地 ， 通 过 在 流水 线 结构 中 加 入 异常 处 理 逻 辑 ， 我 们 既 能 够 从 各 个 异常 中 做 出 正确 的 

选择 ， 也 能 够 避免 出 现 由 于 分 支 预测 错误 取出 的 指令 造成 的 异常 。 这 就 是 为 什么 我 们 会 在 每 
个 流水 线 寄存 器 中 包括 一 个 状态 码 Stat ( 见 图 4-41 和 图 4-52)。 如 果 一 条 指令 在 其 处 理 中 于 
某 个 阶段 产生 了 一 个 异常 ， 这 个 状态 字段 就 被 设置 成 指示 异常 的 种 类 。 异 常 状态 和 该 指令 的 
其 他 信息 一 起 沿 着 流水 线 传播 ， 直到 它 到 达 写 回 阶段 。 在 此 ， 流 水 线 控制 逻辑 发 现 出 现 了 异 
常 ， 并 停止 执行 。 

为 了 避免 异 常 指令 之 后 的 指令 更 新 任何 程序 员 可 见 的 状态 ， 当 处 于 访 存 或 号 回 阶段 中 的 指 
令 导 致 异常 时 ， 流 水 线 控制 逻辑 必须 姑 止 更 新 条 件 码 寄 存 器 或 是 数据 存储 器 在 上 面 的 示例 程 
序 中 ， 控 制 逻辑 会 发 现 访 存 阶 段 的 pushl 导致 了 异常 ， 因 此 应 该 禁止 add1 指令 更 新 条 件 码 
寄存 器 。 

让 我 们 来 看 看 这 种 处 理 异常 的 方法 是 怎样 解决 刚才 提 到 的 那些 细节 问题 的 ， 当 流 水 线 中 有 一 
个 或 多 个 阶段 出 现 异常 时 ， 信 息 只 是 简单 地 存放 在 流水 线 寄存 器 的 状态 字段 中 。 异 常事 件 不 会 对 
流水 线 中 的 指令 流 有 任何 影响 ， 除 了 会 禁止 流水 线 中 后 面 的 指令 更 新 程序 员 可 见 的 状态 〈 条 件 码 
寄存 器 和 存储 器 )， 直 到 异常 指令 到 达 最 后 的 流水 线 阶段 。 因 为 指令 到 达 写 回 阶段 的 顺序 与 它们 
在 非 流水 线 化 的 处 理 器 中 执行 的 顺序 相同 ， 所 以 我 们 可 以 保证 第 一 条 遇 到 异常 的 指令 会 第 一 个 到 
达 写 回 阶段 ， 此 时 程序 执行 会 停止 ， 流 水 线 寄存 器 W 中 的 状态 码 会 被 记录 为 程序 状态 。 如 果 取 
出 了 某 条 指令 ， 过 后 又 取消 了 ， 那 么 所 有 关于 这 条 指令 的 异常 状态 信息 也 都 会 被 取消 。 所 有 导致 
异常 的 指令 后 面 的 指令 都 不 能 改变 程序 员 可 见 的 状态 。 携 带 指令 的 异常 状态 以 及 所 有 其 他 信息 通 
过 流水 线 的 简单 原则 是 处 理 异常 的 简单 而 可 靠 的 机 制 。 - 
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4.5.10 PIPE 各 阶段 的 实现 

现在 已 经 创建 了 PIPE 的 整体 结构 ，PIPE 是 我 们 使 用 了 转发 技术 的 流水 线 化 的 Y86 处 理 器 。 
它 使 用 了 一 组 与 前 面 顺序 设计 相同 的 硬件 单元 ， 另 外 增加 了 一 些 流水 线 寄存 器 、 一 些 重新 配置 的 
逻辑 块 ， 以 及 增加 的 流水 线 控制 逻辑 。 本 节 将 浏览 各 个 逻辑 块 的 设计 ， 而 将 流水 线 控制 逻辑 的 设 
计 放 到 下 一 节 介绍 。 许 多 逻辑 块 与 SEQ 和 SEQ+ 中 相应 部 件 完全 相同 ， 除 了 我 们 必须 从 来 自 不 
同 流 水 线 寄存 器 (用 大 写 的 流水 线 寄存 器 的 名 字 作 为 前 级 ) 或 来 自 各 个 阶段 计算 (用 小 写 的 阶段 
名 字 的 第 一 个 字母 作为 前 缀 ) 的 信和 号 中 选择 适当 的 值 。 

作为 一 个 示例 ， 比 较 SEQ 中 产生 .srcR 信号 逻辑 的 HCL 代码 与 PIPE 中 相应 的 代码 : 

# Code from SEQ 
int srcA = [ 
icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } : rA 


icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 


# Code from PIPE 
int d_srcA = [ 
D_icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } : D_rA; 
D_icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 
] ; 
它们 的 不 同 之 处 只 在 于 PIPE 信和 号 都 加 上 了 前 级 :“D_” 表 示 源 值 ， 以 表明 信号 来 自流 水 线 
寄存 器 D， 而 “qd_” 表 示 结 果 值 ， 以 表明 它 是 在 译 码 阶段 中 产生 的 。 为 了 避免 重复 ， 我 们 在 此 
就 不 列 出 那些 与 SEQ 中 代码 只 有 名 字 前 缀 不 同 的 块 的 HCL 代码 。 网 络 旁 注 ARCH :HCL 中 列 出 
了 完整 的 PIPE 的 HCL 代码 。 
1.PC 选择 和 取 指 阶段 
图 4-55 提供 了 PIPE 取 指 阶段 逻辑 的 详细 描述 。 像 前 面 讨 论 过 的 那样 ， 这 个 阶段 必须 选择 程 
序 计数 器 的 当前 值 ， 并 且 预 测 下 一 个 PC 值 。 从 存储 器 中 读 取 指 令 和 抽取 不 同 指令 字段 的 硬件 单 
元 与 SEQ 中 考虑 的 一 样 〈 参 见 4.3.4 节 中 的 取 指 阶段 )。 
PC 选择 逻辑 从 三 个 程序 计数 器 源 中 进行 选择 。 当 一 条 预测 错误 的 分 支 进入 访 存 阶 段 时 ， 会 
从 流水 线 寄 存 器 M (信号 M_valRA) 中 读 出 该 指令 valP 的 值 (指明 下 一 条 指令 的 地 址 )。 当 
ret 指令 进入 写 回 阶段 时 ， 会 从 流水 线 寄存 器 W〈 信 号 W_valM) 中 读 出 返回 地 址 。 其 他 情况 
会 使 用 存放 在 流水 线 寄存 器 F (信号 F_predPCc) 中 的 PC 的 预测 值 : 


int f_pc = [ 
# Mispredicted branch. Fetch at incremented PC 
M_icode == IJXX && !M_Cnd : M_valAh; 
# Completion of RET instruction. 
W_icode == IRET : W_valM; 
# Default: Use predicted value of PC 
1 : F_predPC; 
]; 


当 取出 的 指令 为 函数 调用 或 跳 转 时 ，PC 预测 逻辑 会 选择 val1C， 否 则 就 会 选择 valP : 


int f_predPC = [ 
f_icode in { IJXX, ICALL } : f_valC; 
1 : f_valP,; 


292 匣 一 闷 分 “查访 络 约 布 圾 厅 


标号 为 “Instr valid” “Need regids” 和 “Need valC” 的 逻辑 块 和 SEQ 中 的 一 
样 ， 使 用 适当 重 命名 的 源 信号 。 : 
. M_icode 
M_Bch 
M_valA 
: W_icode 
W_valM 





imem_ error 


. 图 4-55 PIPE 的 PC 选择 和 取 指 逻辑 。 在 一 个 周期 的 时 间 限 制 内 ， 处 理 器 只 能 预测 下 一 条 指令 的 地 址 


同 SEQ 不 一 样 ， 我 们 必须 将 指令 状态 的 计算 分 成 两 个 部 分 。 在 取 指 阶段 ， 可 以 测试 由 于 指 
令 地址 越界 引起 的 存储 器 错误 ， ee halt 指令 。 必 须 推 迟到 访 存 阶段 才能 发 
现 非 法 数据 地 址 。 
pe 练习 题 4.28 写 出 信号 E_stat 的 HCL 代码 ， 提 供 取出 的 指令 的 临时 状态 a 
2. 译 码 和 写 回 阶段 z 
图 4-56 是 PIPE 的 译 码 和 和 写 回 逻 辑 的 详细 说 明 。 标号 为 “dstE”“dstM”“srcA” 和 
“srcB” 的 块 与 它们 在 SEQ 实现 中 的 相应 部 件 非常 类 似 。 我 们 观察 到 ， 提 供给 写 端口 的 寄存 器 
ID 来 自 于 写 回 阶段 (信号 W_dstE 和 W dstM)， 而 不 是 来 自 于 译 码 阶段 。 这 是 因为 我 们 希望 进 
行 写 的 目的 寄存 器 是 由 写 回 阶段 中 的 指令 指定 的 。 
SS 练习 题 4.29 译 码 阶段 中 标号 为 “dstE” 的 块根 据 来 自流 水 线 寄存 器 D 中 取出 的 指令 的 各 个 字段 ， 
产生 寄存 器 文件 卫 端口 的 寄存 器 ID。 在 PIPE 的 HCL 描述 中 ， 得 到 的 信号 命名 为 d_dstE。 根 据 SEQ 
信号 dstE 的 HCL 描述 ， 写 出 这 个 信和 号 的 HCL 代码 。( 参 考 4.3.4 节 中 的 译 码 阶段 。) 目前 不 用 关心 实 
现 条 件 传送 的 逻辑 。 
这 个 阶段 的 复杂 性 主要 是 跟 转 发 逻辑 相关 。 就 像 前 面 提 到 的 那样 ， 标 号 为 “Sel+tFwd A” 
的 块 扮演 两 个 角色 。 它 为 后 面 的 阶段 将 valP 信号 合并 到 valA 信和 号， 这样 可 以 减少 流水 线 寄存 
器 中 状态 的 数量 。 它 还 实现 了 源 操作 数 valA 的 转发 逻辑 。 
合并 信号 valA 和 val 的 依据 是 ， 只 有 call 和 跳 转 指令 在 后 面 的 阶段 中 需要 valP 的 
值 ， 而 这 些 指令 并 不 需要 从 寄存 器 文件 A 端口 中 读 出 的 值 。 这 个 选择 是 由 该 阶段 的 icode 信号 
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来 控制 的 。 当 信号 D_icode 与 call 或 jxx 的 指令 代码 相 匹 配 时 ， 这 个 块 就 会 选择 D_valP 作 
为 它 的 输出 。 


e_dstE 
e_valE 
M_dstE 
M_valE 
M_dstM 
m_valM 











2 


2 W_dstM 
W_valM 
W_dstE 


W_valE 





攻 i :EE 时 | 洲 i 
六 | 守 一 一 一 一 

到 

RE ee 2 人 
a lel in WT] wo | wp 隔 


图 4-56 ”PIPE 的 译 码 和 写 回 阶段 逻辑 。 没 有 指令 既 需 要 valP 又 需要 来 自 寄存 器 端口 A 中 读 出 的 值 ， 因 此 
对 后 面 的 阶段 来 说 ， 这 两 者 可 以 合并 为 信号 valA。 标 号 为 “SeltFwd A” 的 块 执行 该 任务 ， 并 实 
现 源 操作 数 valA 的 转发 逻辑 。 标 号 为 “Fwd B” 的 块 实现 源 操作 数 valB 的 转发 逻辑 。 寄 存 器 写 
的 位 置 是 由 来 自 写 回 阶段 的 dstE 和 dstM 信号 指定 的 ， 而 不 是 来 自 于 译 码 阶段 ， 因 为 它 要 写 的 
是 当前 正在 写 回 阶段 中 的 指令 的 结果 


4.5.7 节 中 提 到 有 5 个 不 同 的 转发 源 ， 每 个 都 有 一 个 数据 字 和 一 个 目的 寄存 器 ID : 


























数据 字 
sm | et | mo | 
写 回 阶段 中 对 端口 M 未 进行 的 写 





二 阶 各 让 对 六 口 记 进行 的 各 


如 果 不 满足 任何 转发 条 件 ， 这 个 块 就 应 该 选择 d_rvalA 作为 它 的 输出 ， 也 就 是 从 寄存 器 端 
DA 中 读 出 的 值 。 : : 
综 上 所 述 ， 我 们 得 到 以 下 流水 线 寄 存 器 E 的 valA 新 值 的 HCL 描述 : 
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int d_valA = [ 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 


d_srcA == e_dstE : e_valk; # Forward valk from execute 
d_srcA == M_dstM : m_valM, # Forward valM from memory 
d_srcA == M_dstE : M_VvalE; # Forward valE from memory 
d_srchA == W_dstM : W_valM; # Forward valM from write back 
d_srcA == W_dstE : W_valkE; # Forward valE from Write back 


1 : d_rvalA; # Use value read from register file 


1 
上 述 HCL 代码 中 赋予 这 五 个 转发 源 的 优先 级 是 非常 重要 的 。 这 种 优先 级 由 HCL 代码 中 检测 
五 个 目的 寄存 器 ID 的 顺序 来 确定 。 如 果 选 择 了 其 他 任何 顺序 ， 对 某 些 程序 来 说 ， 流 水 线 就 会 出 
错 。 图 4-57 给 出 了 一 个 程序 示例 ， 要 求 对 执行 和 访 存 阶段 中 的 转发 源 设置 正确 的 优先 级 。 在 这 
个 程序 中 ， 前 两 条 指令 写 寄 存 器 sedx， 而 第 三 条 指令 用 这 个 寄存 器 作为 它 的 源 操 作 数 。 当 指令 
Pe 在 周期 4 到 达 译 码 阶 段 时 ， 转 发 逻辑 必须 在 两 个 都 以 该 源 寄存 器 为 目的 的 值 中 选择 一 
它 应 该 选择 哪 一 个 呢 ? 为 了 设 定 优先 级 ， 我 们 必须 考虑 当 一 次 执行 一 条 指令 时 ， 机 器 语言 程 

ee. 第 一 条 irmov1l 指令 会 将 寄存 器 sedx 设 为 10， 第 二 条 irmov1 指令 会 将 之 设 为 3， 然 
后 rrmov1l 指令 会 从 sedx 中 读 出 3。 为 了 模拟 这 种 行为 ， 流 水 线 化 的 实现 应 该 总 是 给 处 于 最 早 流水 
线 阶段 的 转发 源 以 较 高 的 优先 级 ， 因 为 它 保持 着 程序 序列 中 设置 该 寄存 器 的 最 近 的 指令 。 因 此 ， 上 
述 HCL 代码 中 的 逻辑 首先 会 检测 执行 阶段 的 转发 源 ， 然 后 是 访 存 阶段 ， 最 后 才 是 写 回 阶段 。 

只 有 指令 popl%esp 会 关心 在 访 存 或 写 回 阶段 两 个 源 之 间 的 转发 优先 级 ， 因 为 只 有 这 条 指 
令 能 同时 写 两 个 寄存 器 。 


# prog6 

Ox000: irmovl $10 ,pedx 
Ox006: irmov] $3,%edx 
OxO0c: rrmovl hedx ,heax 


OxO00e: halt 


M gstE = Whedx 
y _ValE = 10 





图 4-57 转发 优先 级 的 说 明 。 在 周期 4 中 ，%edx 的 值 既 可 以 从 执行 阶段 也 可 以 从 访 存 阶段 得 到 。 转 
a 该 pa and nah ee dl 





“是 反 过 来 的 请 措 冰 下 列 程 序 中 Lei6v1 指令 (第 5 本 ， 0 8 


1 irmov] $5, hedx 
2 irmov] $0Ox100,%esp 
3 rmmov]1 %edx,0(%esp) 
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4 popl %esp . 

5 rrmov] %esp,heax 
队 练 习题 4.31 假设 d_valA 的 HCL 代码 中 第 五 和 第 六 种 情况 (来 和 写 回 阶段 的 两 个 转发 源 ) 的 顺序 是 

反 过 来 的 。 写 出 一 个 会 运行 错误 的 Y86 程序 。 请 描述 错误 是 如 何 发 生 的 ， 以 及 它 对 程序 行为 的 影响 。 
芒 红 练习 题 4.32 ”根据 提供 到 流水 线 寄存 器 EE 的 源 操作 数 valB 的 值 ， 写 出 信号 d_valB 的 HCL 代码 。 

写 回 阶段 的 一 小 部 分 是 保持 不 变 的 。 如 图 4-52 所 示 ， 整 个 处 理 器 的 状态 Stat 是 一 个 块根 据 
流水 线 寄存 器 W 中 的 状态 值 计算 出 来 的 。 回 想 4.1.1 节 ， 状 态 码 应 该 指明 是 正常 操作 (AOK)， 
还 是 三 种 异常 条 件 中 的 一 种 。 由 于 流水 线 寄 存 器 W 保存 着 最 近 完成 的 指令 的 状态 ， 很 自然 地 要 
用 这 个 值 来 表示 整个 处 理 器 状态 。 唯 一 要 考虑 的 特殊 情况 是 当 写 回 阶段 有 气泡 时 。 这 是 正常 操作 
的 一 部 分 ， 因 此 对 于 这 种 情况 ， 我 们 也 希望 状态 码 是 AOK : 

int Stat = [ 


W_stat == SBUB : SAOK; 
1 W_stat,; 








ls 


3. 执行 阶段 . / / 

“图 4-58 是 PIPE 央行 阶段 的 逻辑 。 这 些 硬 件 单元 和 逻辑 块 同 SEQ 中 的 相同 ， 使 用 的 信号 做 
适当 的 重 命名 。 我 们 可 以 看 到 信号 e_valE 和 e_dstE 作为 转发 源 ， 指 向 译 码 阶 段 。 一 个 区 别 
是 标号 为 “Set CC” 的 逻辑 以 信号 m_stat 和 W_stat 作为 输入 ， 这 个 逻辑 决定 了 是 否 要 更 新 
条 件 码 。 这 些 信 号 用 来 检查 一 条 导致 异常 的 指令 正在 通过 后 面 的 流水 线 阶段 的 情况 ， 因 此 ， 任 何 
dl 这 部 分 设计 在 4.5.11 下 


人 
i 
和 
ee Cad 
2 人 






| stat licode ifun 上 > : | dstE dstM | srcA srcB | 


图 4-58 PIPE 的 执行 阶段 逻辑. 这 一 部 分 的 设计 与 SEQ 实现 中 的 逻辑 非常 相似 





区 汪 练习 题 4.33 。d_valA 的 HCL 代码 中 的 第 二 种 情况 使 用 了 信和 号 e_dstE， 判 断 是 否 要 选择 ALU 的 输 
出 e_valE 作为 转发 源 。 假 设 我 们 用 己 dstE， 也 就 是 流水 线 寄存 器 也 中 的 目的 寄存 器 ID， 作为 这 个 
选择 。 写 出 一 个 采用 这 个 修改 过 的 转发 逻辑 就 会 产生 错误 结果 的 Y86 程序 。 

4. 访 存 阶段 
图 4-59 是 PIPE 的 访 存 阶段 逻辑 。 将 这 个 逻辑 与 SEQ 的 访 存 阶段 〈 图 4-30) 相 比 较 ， 我 们 

看 到 ， 正 如 前 面 提 到 的 那样 ，PIPE 中 没有 SEQ 中 标号 为 “Data” 的 块 。 这 个 块 是 用 来 在 数据 

源 valP (对 call 指令 来 说 ) 和 valA 中 进行 选择 的 ， 然 而 这 个 选择 现在 由 译 码 阶段 中 标号 为 

“Sel+Fwd A” 的 块 来 执行 。 这 个 阶段 的 其 他 块 都 和 SEQ 相应 的 部 件 相同 ， 采 用 的 信号 做 适当 的 
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重 命名 。 在 图 中 ， 你 还 可 以 看 到 许多 流水 线 寄 存 器 中 的 值 ， 同 时 M 和 W 还 作为 转发 和 流水 线 控 
制 逻 辑 的 一 部 分 ， 提 供 Re : 





m_valM . 


M_dstE 
M_dstM 


M_icode M valA 


M_Cnd ee ee M_valE 
3 Ne 到 3 | Ne 
a i et i 和 出 | 并 | 
让 刘 ede 人 hi A 
A a 人 Ed 
SE ee Es | 和 . 





图 4-59 PIPE 的 访 存 阶段 逻辑 。 许 多 从 流水 线 寄存 器 M 和 W 来 的 信号 被 传递 到 较 早 的 阶段 ， 以 提供 
”” ”号 回 的 结果 、 指令 地 址 以 及 转发 的 结果 





练习 题 4.34 在 这 个 阶段 ， 通过 检查 数据 存储 器 的 非法 地 址 情况 ， 我 们 能 够 完成 状态 码 Stat 的 计 

算 。 写 出 信和 号 m_stat 的 HCL 代码 。 
4.5.11 流水线 控制 逻辑 | 

现在 准备 创建 流水 线 控制 逻辑 ， 以 完成 我 们 的 PIPE 设计 。 这 个 逻辑 必须 处 理 以 下 4 种 控制 
情况 ， 这 些 情况 是 其 他 机 制 ( 例 如 数据 转发 和 分 支 预 测 〉 不 能 处 理 的 : 

处 理 ret : 流水 线 必须 暂停 直到 ret 指令 到 达 写 回 阶段 。 

加 载 / 使 用 冒险 : 在 一 条 从 存储 器 中 读 出 一 个 值 的 指令 和 一 条 使 用 该 值 的 指令 之 间 ， 流 水 线 
必须 暂停 一 个 周期 。 

预测 错误 的 分 支 : 在 分 支 淘 辑 发 现 不 应 该 选择 分 支 之 前 ， 分 支 目 标 处 的 几 条 指令 已 经 进入 流 
水 线 了 。 必 须 从 流水 线 中 去 掉 这 些 指 令 。 

异常 : 当 一 条 指令 导致 异常 ， 我 们 想 要 禁止 后 面 的 指令 更 新 程序 员 可 见 的 状态 ， 并 且 在 异常 
指令 到 达 写 回 阶段 时 ， 停 止 执行 。 

我 们 先 浏览 每 种 情况 所 期 望 的 行为 ， 然 后 再 设计 处 理 这 些 情况 的 控制 逻辑 。 

1. 特殊 控制 情况 所 期 望 的 处 理 

对 于 ret 指令 ， 考 虑 下 面 的 示例 程序 。 这 个 程序 是 用 江 纺 代码 表示 的 左边 是 各 个 指令 的 
地 址 以 供 参 考 : 


OXO00 : irmov] Stack,hesp # Initialize stack pointer 
Ox006: .call Proc # procedure call 
OxO0Ob: irmov] $10,%edx # return point 

Ox011: halt 

Ox020: .pos Ox20 

Ox020: Proc: # Proc: 

0x020: ret # return immediately 


0x021: rrmov] %edx,%Xebx # not executed 
Ox030: .pos Ox30 
Ox030: Stack: 有 # Stack: Stack pointer 
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图 4-60 给 出 了 我 们 希望 流水 线 如 何 来 处 理 ret 指令 。 同 前 面 的 流水 线 图 一 样 ， 这 幅 图 展示 
了 流水 线 的 活动 ， 时 间 从 左 向 右 增加 。 与 前 面 不 同 的 是 ， 指 令 列 出 的 顺序 与 它们 在 程序 中 出 现 的 
顺序 并 不 相同 ， 因为 这 个 程序 含有 一 个 控制 流 ， 指 今 并 不 是 按 线性 | RT A 
就 能 知道 它们 在 程序 中 的 位 置 。 。 

如 图 所 示 ， 在 周期 3 取出 ret 指令 ， 并 沿 着 流水 线 前 进 ， 在 周期 7 进入 写 回 阶段 。 在 它 经 
过 译 码 、 执 行 和 访 存 阶段 时 ， 流 水 线 不 能 做 任何 有 用 的 活动 。 取 而 代 之 地 ， 我 们 只 能 在 流水 线 中 
插入 3 个 气泡 。 一 旦 ret 指令 到 达 写 回 阶段 ，PC 选择 逻辑 就 会 将 程序 计数 器 设 为 返回 地 址 ， 然 
后 取 指 阶段 就 会 取出 位 于 返回 点 〈 地 址 0x00b) 处 的 irmov1l 指令 。 

图 4-61 是 示例 程序 中 ret 指令 的 实际 处 理 过 程 。 在 此 可 以 看 到 ， 在 流水 线 的 取 指 阶段 没有 
办 法 插入 气泡 。 每 个 周期 ， 取 指 阶 段 从 指令 存储 器 中 读 出 一 条 指令 。 看 看 4.5.10 节 中 实现 PC 预 
测 逻 辑 的 HCL 代码， 我 们 可 以 知道 ， 对 ret 指令 来 说 ，PC 的 新 值 被 预测 成 valP， 也 就 是 下 
一 条 指令 的 地 址 。 在 我 们 的 示例 程序 中 ， 这 个 地 址 会 是 0x021， 即 ret 后 面 .rrmov1 指令 的 地 
址 。 对 这 个 例子 来 说 ， 这 种 预测 是 不 对 的 ， 即 使 对 大 部 分 情况 来 说 ， 也 是 不 对 的 ， 但 是 在 设计 
中 ， 我 们 并 不 试图 正确 预测 返回 地 址 。 取 指 阶 段 会 暂停 3 个 时 钟 周期 ， 导 致 取出 rrmov1l 指令 
但 是 在 译 码 阶段 就 被 蔡 换 成 了 气泡 。 这 个 过 程 在 图 4-61 中 的 表示 为 ，3 个 取 指 用 箭头 指向 下 面 
的 气泡 ， 气 泡 会 经 过 剩 下 的 流水 线 阶段 。 最 后 ， 在 周期 7 取出 irmov1 指令 。 比 较 图 4-60 和 图 
4-61， 可 以 知道 ， 我 们 的 实现 达到 了 期 望 的 效果 ， 只 是 连续 3 个 周期 取出 了 不 正确 的 指令 。 


: irmovl Stack ;hedx 


: call proc Es 


20: ret 
bubble 
bubble 
bubble 
irmovl $10, hedx # Return point 


图 4-60 ret 指令 处 理 的 简化 视图 。 当 ret 经 过 译 码 、 项 行 和 访 存 阶段 时 流水 线 应 该 暂停 ， 在 处 理 
过 程 中 插入 3 个 气泡 。 一 旦 ret 指令 到 达 写 回 阶段 〈 周 期 7)，PC 选择 逻辑 就 会 选择 返回 地 
址 作为 指令 的 取 指 地 址 
# prog7 
Ox000: irmovl Stack,hedx 
Ox006: call proc | 
Ox020: ret 





Ox021: rrmovl hedx ,pebx # Not executed 
bubble 


: rrmov] hedx,%hebx # Not executed 
bubble 


: rrmovl hedx, hebx # Not executed 
bubble 





irmovl $10, Wedx # Return i 


4- 1 ‘ret 指令 处 理 的 实际 处 理 过 程 。 取 措 阶段 反复 取出 ret 指令 后 面 的 rrmov1 指令 ， 但 是 流 
水 线 控制 逻辑 在 译 码 阶段 插入 气泡 ， 而 不 是 让 rrmovl 指令 继续 下 去 。 由 此 得 到 的 行为 与 图 
4-60 所 示 的 等 价 
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在 4.5.8 节 ， 我 们 已 经 描述 了 对 加 载 / 使 用 冒险 所 期 望 的 流水 线 操作 ， 如 图 4-54 所 示 。 只 有 
mrmovl 和 popl 指令 会 从 存储 器 中 读数 据 。 当 这 两 条 指令 中 的 任 一 条 处 于 执行 阶段 ， 且 需要 该 
目的 寄存 器 的 指令 正 处 在 译 码 阶段 时 ， 我 们 要 将 第 二 条 指令 阻塞 在 译 码 阶 段 ， 并 在 下 一 个 周期 往 
执行 阶段 插入 一 个 气泡 。 此 后 ， 转 发 逻辑 会 解决 这 个 数据 冒险 。 可 以 将 流水 线 寄存 器 DD 保持 为 
固定 状态 ， 从 而 将 一 个 指令 阻塞 在 译 码 阶段 。 与 此 同时 ， 还 必须 将 流水 线 寄存 器 下 保持 为 固定 
状态 ， 这 样 ， 就 会 第 二 次 取出 下 一 条 指令 。 总 之 ， 实 现 这 个 流水 线 流 需要 发 现 冒 险 的 情况 ， 保 持 
流水 线 寄存 器 F 和 D 固定 不 变 ， 并 且 在 执行 阶段 插入 气泡 。 

要 处 理 预 测 错误 的 分 支 ， 让 我 们 来 考虑 下 面 这 个 用 江 纺 代码 表示 的 程序 左边 是 各 个 指针 的 
地 址 以 供 参考 : 


0x000: Xorl] Weax,heax 
Ox002: jne target # Not taken 
Ox007: irmovl1 $1, heax # Fall through 
Ox00d: halt 

Ox00e: target: 
Ox00e: irmovl $2, %edx # Target 
Ox014: irmovl1 $3, hebx # Target+1 


. Ox01a: halt 


图 4-62 表明 如 何 处 理 这 些 指 令 。 同 前 面 一 样 ， 指 令 按 照 它们 进入 流水 线 的 | 顺序 列 出 ， 而 不 
是 按照 它们 出 现在 程序 中 的 顺序 。 因 为 预测 跳 转 指 令 会 选择 分 支 ， 所 以 周期 3 会 取出 位 于 跳 转 目 
标 处 的 指令 ， 而 周期 4 会 取出 该 指令 后 的 那 条 指令 。 在 周期 4， 分支 逻 辑 发 现 不 应 该 选择 分 支 之 
前 ， 已 经 取出 了 两 条 指令 ， 它 们 不 应 该 继续 执行 下 去 了 。 幸 运 的 是 ， 这 两 条 指令 都 没有 导致 程序 
员 可 见 的 状态 发 生 改 变 。 只 有 指令 到 达 执 行 阶段 时 才 会 发 生 那 种 情况 ， 在 执行 阶段 中 ， 指 令 会 改 
变 条 件 码 。 我 们 只 要 在 下 一 个 周期 往 译 码 和 执行 阶段 中 插入 气泡 ， 并 同时 取出 跳 转 指令 后 面 的 指 
令 ， 这 样 就 能 取消 (有 时 也 称 为 指令 排除 (instruction squashing)) 那 两 条 预测 错误 的 指令 。 这 
样 一 来 ， 两 条 预测 错误 的 指令 就 会 从 流水 线 中 消失 。 正 如 4.5.11 节 中 讨论 的 那样 ， 在 流水 线 控制 
逻辑 中 加 入 对 基本 的 时 钟 寄存 器 设计 所 做 的 简单 扩展 ， 就 能 使 我 们 向 流水 线 寄存 器 中 插入 气泡 。 


# prog8 


Ox000: xorl Yeax ,Yeax 


Ox002: jne target # Not taken 


0x00e: irmov] 和 $2 ,pedx # Target 
bubble 
: irmov] $3,hebx # Target+1 
bubble 
: irmovl $1,%eax # Fall through 
: halt 


图 4-62 处理 预测 错误 的 分 支 指令 。 流 水 线 预测 会 选择 分 支 ， 所 以 开始 取 跳 转 目标 处 的 指令 。 在 周期 4 
发 现 预测 错误 之 前 ， 已 经 取出 了 两 条 指令 ， 此 时 ， 跳 转 指 令 正 在 通过 执行 阶段 。 在 周期 5， 流 
水 线 往 译 码 和 执行 阶段 中 插入 气泡 ， 取 消 了 两 条 目标 指令 ， 同 时 还 取出 跳 转 后 面 的 那 条 指令 


对 于 导致 异常 的 指令 ， 我 们 必须 使 流水 线 化 的 实现 符合 期 望 的 ISA 行为 ， 也 就 是 在 前 面 所 
有 的 指令 结束 前 ， 后 面 的 指令 不 能 影 啊 程序 的 状态 。 会 使 达到 这 些 效果 比较 采 烦 的 因素 有 : 1) 
在 程序 执行 的 两 个 不 同 阶段 〈 取 指 和 访 存 ) 会 发 现 异 常 ，2) 在 三 个 不 同 阶段 〈 执 行 、 访 存 和 写 
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回 ) 会 更 新 程序 状态 。 
” ”在 我 们 的 阶段 设计 中 ， 每 个 流水 线 寄存 器 中 会 包含 一 个 状态 码 stat， 随 着 每 条 指令 经 过 流 
水 线 阶段 ， 它 会 记录 指令 的 状态 。 当 异常 发 生 时 ， 我 们 将 这 个 信息 作为 指令 状态 的 一 部 分 记录 下 
来 ， 并 且 继 续 取 指 、 译 码 和 执行 指令 ， 就 好 像 什么 都 没有 出 错 似 的 。 当 异常 指令 到 达 访 存 阶段 
时 ， 我 们 会 采取 措施 防止 后 面 的 指令 修改 程序 员 可 见 的 状态 : 1) 禁止 执行 阶段 中 的 指令 设置 条 
件 码 ，2) 向 存储 器 阶段 中 插 和 人 气泡， 以 禁止 向 数据 存储 器 中 写 人 ，3 ) 当 写 回 阶段 中 有 异常 指令 
时 ， 暂 停 写 回 阶段 ， 因 而 暂停 了 流水 线 。 

图 4-63 中 的 流水 线 图 说 明了 我 们 的 流水 线 控制 如 何 处 理 导 致 异常 的 指令 后 面 跟着 一 条 会 改 
变 条 件 码 的 指令 的 情况 。 在 周期 6，pushl 指令 到 达 访 存 阶段 ， 产 生 一 个 存储 器 错误 。 在 同一 个 
周期 ， 执 行 阶段 中 的 add1 指令 产生 新 的 条 件 码 的 值 。 当 访 存 或 者 写 回 阶 段 中 有 异常 指令 时 ( 通 
过 检查 信号 m_stat 和 W_stat， 然 后 将 信号 set_cc 设置 为 0)， 禁 止 设置 条 件 码 。 在 图 4-63 
的 例子 中 ， 我 们 还 可 以 看 到 既 向 访 存 阶段 插入 了 和 气泡 ， 1 a 
指令 在 写 回 阶段 保持 暂停 ， 后 面 的 指令 都 没有 通过 执行 阶段 。 


# prog10 


Ox000: irmovl $1 ,Apeax 

Ox006: xorl hesp,hesp #CC = 100 
Ox008: pushl] %eax 

Ox00a: add1 heax ,heax 


OxOO0c: irmovl] $2 ,peax 





图 4-63 处理 存储 器 引用 非法 异常 。 在 周期 6，pushl 指令 的 存储 器 引用 非法 导致 禁止 更 新 条 件 码 。 
流水 线 开 始 往 访 存 阶段 插入 气泡 ， 并 在 写 回 阶段 暂停 异常 指令 


对 状态 信和 号 流水 线 化 ， 控 制 条件 码 的 设置 ， 以 及 控制 流水 线 阶 段 一 一 将 这 些 结 合 起 来 ， 我 们 
实现 了 异常 的 期 望 的 行为 : 异常 指令 之 前 的 指令 都 完成 了 ， 而 后 面 的 指令 对 程序 员 可 见 的 状态 都 
没有 影响 。 

2. 发 现 特殊 控制 条 件 

图 4-64 总 结 了 需要 特殊 流水 线 控制 的 条 件 。 它 给 出 的 HCL 表达 式 描 述 了 在 哪些 条 件 下 会 出 
现 这 三 种 特殊 情况 。 一 些 简 单 的 组 合 逻 辑 块 实现 了 这 些 表 达 式 ， 为 了 在 时 钟 上 升 开 始 下 一 个 周 
期 时 控制 流水 线 寄 存 器 的 活动 ， 这 些 块 必须 在 时 钟 周期 结束 之 前 产生 结果 。 在 一 个 时 钟 周期 内 ， 
流水 线 寄 存 器 D、E 和 M 分 别 保 持 着 处 于 译 码 、 执 行 和 访 存 阶 段 中 的 指令 的 状态 。 在 到 达 时 钟 
周期 末尾 时 ， 信 号 da_srcA 和 d_srcs 会 被 设置 为 译 码 阶段 中 指令 的 源 操作 数 的 寄存 器 DD。 当 
ret 指令 通过 流水 线 时 ， 要 想 发 现 它 ， 只 要 检查 译 码 、 执 行 和 访 存 阶段 中 指令 的 指令 码 。 发 现 
加 载 / 使 用 冒险 要 检查 执行 阶段 中 的 指令 类 型 (mrmov1 或 pop1)， 并 把 它 的 目的 寄存 器 与 译 码 
阶段 中 指令 的 源 寄存 器 相 比 较 。 当 跳 转 指令 在 执行 阶段 时 ， 流 水 线 控制 逻辑 应 该 能 发 现 预测 错误 
的 分 支 ， 这 样 当 指令 进入 访 存 阶段 时 ， 它 就 能 设置 从 错误 预测 中 恢复 所 需要 的 条 件 。 当 跳 转 指 令 
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处 于 执行 阶段 时 ， 信 号 e_cnd 指明 是 否 要 选择 分 支 。 通 过 检查 访 存 和 写 回 阶段 中 的 指令 状态 值 ， 
就 能 发 现 异常 指令 。 对 于 访 存 阶段 ， 我 们 使 用 在 这 个 阶段 中 计算 出 来 的 信号 m_stat, 而 不 是 使 
用 流水 线 寄存 器 的 M_stat。 ee z 


ER -一 
处 理 ret IRET € {D icode, Ejcode Mjicode} . : 


加 载 / 使 用 冒 险 Ejicode efIMRMOVL, IPOPL} &g EdstM e {d_srcA， dsrcB) 
预测 错误 的 分 支 Ejicode=|JXX&g le.Cnd 


异常 m_stat e {SADR, SINS, SHLT} | |-W.stat € {SADR, SINS, SHIT 




















图 4-64 “流水线 控制 逻辑 的 检查 条 件 。 四 种 不 同 的 条 件 要 求 改变 流水 线 , 暂停 流水 线 或 者 取消 已 
经 部 分 执行 的 指令 


3. 流水 线 控制 机 抽 3 . ee | 

图 4-65 是 一 些 低级 机 制 ， 它 们 使 得 流水 线 控制 逻辑 能 将 指令 阻塞 在 流水 线 寄存 器 中 ， 或 是 
往 流水 线 中 揪 和 一 个 气泡 。 这 些 机 制 包括 对 4.2.5 节 描 述 的 基本 时 钟 寄存 器 的 小 扩展 。 假 设 每 个 
流水 线 寄存 器 有 两 个 控制 输入 : 暂停 (stall) 和 气泡 (bubble)。 这 些 信 号 的 设置 决定 了 当时 钟 
上 升 时 该 如 何 更 新 流水 线 寄存 器 。 在 正常 操作 下 (图 4-6Sa)， 这 两 个 输入 都 设 为 0， 使 得 寄存 器 
加 载 它 的 输入 作为 新 的 状态 。 当 暂停 信号 设 为 1 时 (图 4-65b)， 禁 止 更 新 状态 。 相 反 ， 寄 存 器 
会 保持 它 以 前 的 状态 。 这 使 得 它 可 以 将 指令 阻塞 在 某 个 流水 线 阶 段 中 。 当 气泡 信号 设置 为 1 时 
(图 4-65c)， 寄 存 器 状态 会 设置 成 某 个 固定 的 复位 配置 (reset configuration)， 得 到 一 个 与 nop 指 
状态 =y 


中 时 钟 上 升 沿 





图 4.65 全 We 
”人 的 值 ;b) 当 运行 在 暂停 模式 时 ， 状 态 保持 先前 的 值 不 变 ; e) 当 运 行 在 气泡 模式 时 ， 会 用 
nop 操作 的 状态 覆盖 当前 状态 A 0 : i 
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令 等 效 的 状态 。 一 个 流水 线 寄存 器 复位 配置 的 0、1 模式 由 流水 线 寄 存 器 中 字段 的 集合 决定 。 例 
如 ， 要 往 流 水 线 寄存 器 D 中 插入 一 个 气泡 ， 我 们 要 将 icods 字段 设置 为 常数 值 INOP( 图 4-26)。 
要 往 流水 线 寄 存 器 E 中 插入 一 个 气泡 ， 我 们 要 将 icode 字段 设 为 INOP， 并 将 dstE、 dstM、 
srcA 和 srcB 字段 设 为 常数 RNONE。 确 定 复位 配置 是 硬件 设计 师 在 设计 流水 线 寄存 器 时 的 任务 

。 在 此 我 们 不 讨论 细节 。 我 们 会 将 气泡 和 暂停 信号 都 设 为 1 看 成 是 出 错 。 - / 
z ”图 4-66 中 的 表 给 出 了 各 个 流水 线 寄 存 央 宪 三 种 将 殊 情 况 下 应 访 采 到 的 行动 。 对 每 种 情况 的 
处 理 都 是 流水 线 寄存 器 正常 、 暂 停 和 气泡 操作 的 某 个 组 合 。 


流水 线 寄存 器 
E 


处 理 ret 

加 载 / 使 用 冒险 

预测 错误 的 分 支 | | 

图 4-66， 流 水 线 控制 逻辑 的 动作 。 不 同 的 条 件 需要 改变 流水 线 流 ， 或 者 会 暂停 流水 线 ， 或 者 会 取消 部 

分 已 执行 的 指令 

在 时 序 字 方 面 ， 流水 线 寄存 器 的 暂停 和 气 光 榨 制 信号 由 组 合 逻 辑 块 产生 。 当时 钟 上 升 时 ， 这 些 
信 必 须 是 合法 的 使 得 当下 一 个 时 钟 周期 开始 时 ， 每 个 流水 线 寄存 器 要 么 加 载 ， 要 人 么 暂停 ， 要 人 么 
产生 气泡 。 有 了 这 个 对 流水 线 寄存 器 设计 的 小 扩展 ， 我 们 就 能 用 组 合 逻 辑 、 时 钟 寄存 器 和 随机 访 
问 存储 器 这 样 的 基本 构建 块 ， 来 实现 一 个 完整 的 、 包 括 所 有 控制 的 流水 线 。 

4. 控制 条 件 的 组 合 

到 目前 为 止 ， 在 我 们 对 特殊 流水 线 控制 条 件 的 讨论 中 ， 假设 在 任意 一 个 时 钟 周期 内 ， 最 多 只 
能 出 现 一 个 特殊 情况 。 在 设计 系统 时 ， 一 个 常见 的 缺陷 是 不 能 处 理 同时 出 现 多 个 特殊 情况 的 情 
形 。 现 在 来 分 析 这 些 可 能 性 。 我 们 不 需要 担心 多 个 程序 异常 的 组 合 情 况 ， 因 为 已 经 很 小 心地 设计 
了 异常 处 理 机 制 ， 它 能 够 考虑 流水 线 中 其 他 指令 的 情况 。 图 4-67 是 导致 其 他 三 种 特殊 控制 条 件 
的 流水 线 状态 。 图 中 所 示 的 是 译 码 、 执 行 和 访 存 阶段 的 块 。 上 暗色 的 方 框 代表 要 出 现 这 种 条 件 必须 
满足 的 特别 限制 。 加 载 / 使 用 冒险 要 求 执行 阶段 中 的 指令 将 一 个 值 从 存储 器 读 到 寄存 器 中 ， 同 时 
ee ade en dri 
转 指 令 。 对 ret 来 说 有 三 种 可 能 的 情 i 
通过 流水 线 时 ， 前 面 的 流水 线 阶段 都 是 气泡 。 


加 载 /使 用 
有 








预测 错误 








.图 中 标明 的 两 对 情况 可 能 同时 出 现 


从 图 中 我 们 可 以 看 出 ， 大 多 数控 制 条 件 是 互 斥 的 。 例如 ， 不 可 能 同时 既 有 加 载 ) 使 用 冒险 又 
有 预测 错误 的 分 支 ， 因 为 加 载 /使 用 冒险 要 求 执行 阶段 中 是 加 载 指令 (mrmovl 或 pop1)， 而 预 
测 错误 的 分 支 要 求 执行 阶段 中 是 一 条 跳 转 指令 。 类 似 地 ， 第 二 个 和 第 三 个 ret 组 合 也 不 可 能 与 
加 载 /使 用 冒险 或 预测 错误 的 分 支 向 时 出 现 。 只 有 用 箭头 标明 的 两 种 组 合 可 能 同时 出 现 。 

组 合 A 指 执行 阶段 中 有 一 条 不 选择 分 支 的 四 转 指 信 ， 而 译 码 阶段 中 有 一 条 ret 指令 。 出 现 
这 种 组 合 要 求 ret 位 于 不 选择 分 支 的 目标 处 。 流 水 线 控制 逻辑 应 该 发 现 分 支 预测 错误 ， 因 此 要 


Www.lopSage.com 


302 。 莫 一 刘 分 程序 结 药 布 薇 疗 


取消 ret 指令 。 
让 对 练习 题 4.35 ” 写 一 个 Y86 汇编 语言 程序 ， 它 能 导致 出 现 组 合 A 的 情况 ， 并 判断 控制 逻辑 是 否 处 理 正确 。 
合并 组 合 A 条 件 的 控制 动作 〈 见 图 4-66)， 得 到 以 下 面 流 水 线 控 制 动 作 〈 假 设 气泡 或 暂停 会 
覆盖 正常 的 情况 ) : 
| 流水 线 宕 器 | 


F 





处 理 ret 


预测 错误 的 分 支 
组 合 





也 就 是 说 ， 组 合 A 的 处 理 与 预测 错误 的 分 支 相 似 ， 只 不 过 在 取 指 阶段 是 暂停 。 幸 运 的 是 , 
在 下 一 个 周期 ,. PC 选择 逻辑 会 选择 跳 转 后 面 那 条 指令 的 地 址 ， 而 不 是 预测 的 程序 计数 器 值 ， 所 
以 流水 线 寄存 器 F 发 生 了 什么 是 没有 关系 的 。 因 此 我 们 得 出 结论 ， 流水 线 能 正确 处 理 这 种 组 合 
组 合 B 包括 一 个 加 载 /使 用 冒险 ， 其 中 加 载 指 令 设置 寄存 器 $esp， 然 后 ret 指令 用 这 个 寄 
存 器 作为 源 操作 数 ， 因 为 已 必须 个 线 中 强 出 返回 地 扯 。 流水 线 控制 逻辑 应 该 将 ret 指令 阻塞 在 
译 码 阶段 。 
ES 练习 题 4.36 写 一 个 Y86 汇编 语言 程序 ， 它 能 导致 出 现 组 合 B 的 情况 ， 如 果 流 水 线 运行 正确 ， 
halt 指令 结束 。 


合并 组 合 了 条件 的 控制 动作 〈 见 图 4.66)， 得 到 以 下 流水 线 控制 动作 
流水 线 寄存 器 
E 





处 理 ret 


预测 错误 的 分 支 
组 合 





期 望 的 情况 


如 果 同 时 触发 两 组 动作 ， 控 制 逻 辑 会 试图 暂停 ret 指令 来 避免 加 载 /使 用 冒险 ， 同 时 
又 会 因为 ret 指令 而 往 译 码 阶段 中 插入 一 个 气泡 。 显 然 ， 我 们 不 希望 流水 线 同 时 执行 这 两 
组 动作 。 而 是 希望 它 只 采取 针对 加 载 / 使 用 冒险 的 动作 。 处 理 ret 指令 的 动作 应 该 推迟 一 
个 周期 。 

这 些 分 析 表 明 组 合 B 需要 特殊 处 理 。 实 际 上 ，PIPE 控制 逻辑 原来 的 实现 并 没有 正确 处 理 这 
种 组 合 情 况 。 即 使 设计 已 经 通过 了 许多 模拟 测试 ， 它 还 是 有 细节 问题 ， 只 有 通过 刚才 那样 的 分 析 
才能 发 现 。 当 执行 一 个 含有 组 合 B 的 程序 时 ， 控 制 逻 辑 会 将 流水 线 寄存 器 D 的 气泡 和 暂停 信号 
都 置 为 1。 这 个 例子 表明 了 系统 分 析 的 重要 性 。 只 运行 正常 的 程序 是 很 难 发 现 这 个 问题 的 。 如 果 
没有 发 现 这 个 问题 ， 流 水 线 就 不 能 忠实 地 实现 ISA 的 行为 。 

5. 控制 逻辑 实现 

图 4-68 是 流水 线 控制 罗 加 的 整体 结构 。 根据 来 目 流水 线 寄 存 器 和 流水 线 阶段 的 信 号 ， 控 制 
逻辑 产生 流水 线 寄存 器 的 暂停 和 气泡 控制 信和 号， 同时 决定 是 否 要 更 新 条 件 码 寄存 器 。 我 们 可 以 将 
图 4-64 的 发 现 条 件 和 图 4-66 的 动作 结合 起 来 ， 产 生 各 个 流水 线 控制 信号 的 HCL 描述 。 
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E_bubble 区 下 
essoesoeseseseeee | CE 


SD 


时 4 
oh | . 
ee - ， 
th 2 
二 的 
Pe 
和 
1 区 NB 
th: 





: 


以 处 理 特殊 条 件 ， 例 如 过 


pA 
i 


图 4-68 
程 返回 、 预 测 错误 的 分 支 、 加 载 /使 用 冒险 和 程序 异常 


遇 到 加 载 / 使 用 冒险 或 ret 指令 ， 流 水 线 寄存 器 上 必须 暂停 : 


bool F_stall = 
# Conditions for a load/use hazard 
E_icode in { IMRMOVL, IPOPL } && 
E_dstM in { d_srcA, d_srcB } || 
# Stalling at fetch while ret passes through pipeline 
IRET in { D_icode, E_icode, M_icode }; 


Pd 练习 题 4.37” 写 出 PIPE 实现 中 信号 D stall 的 HCL 代码 。 
遇 到 预测 错误 的 分 支 或 ret 指令 ,流水 线 寄存 器 D 必须 设置 为 气泡 。 然 而 ， 正 如 前 面 一 节 
的 分 析 ， 当 遇 到 加 载 /使 用 冒险 和 ret 指令 组 合 时 ， 不 应 该 插入 气泡 : 


bool D_bubble = 
# Mispredicted branch 
(E_icode == IJXX && !e_Cnd) || 
# Stalling at fetch while ret passes through pipeline 
# but not condition for a load/use hazard 
! (E_icode in { IMRMOVL, IPOPL } 
&& E_dstM in { d_srcA, d_srcB }) 
&& IRET in { D_icode, E_icode, M_icode }; 


练习 题 4.38 写 出 PIPE 实现 中 信号 E_bubble 的 HCL 代码 。 

习 练习 题 4.39 写 出 PIPE 实现 中 信号 set_cc 的 HCL 代码 。 该 信号 只 对 OP1 指令 出 现 ， 应 该 考虑 各 
。 序 异 常 的 影响 。 

ES 练习 题 4.40” 写 出 PIPE 实现 中 信和 号 M bubble 和 由 stall 的 HCL 代码 。 后 者 需要 修改 图 4-64 中 
列 出 的 异常 条 件 。 和 : 


”现在 我 们 就 讲 完 了 所 有 的 特殊 流水 线 控制 信号 的 值 。 在 PIPE 的 完整 HCL 代码 中 ， 所 有 其 
他 的 流水 线 控制 信号 都 设 为 0。 
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测试 设计 

正如 六 们 看 到 的 ， 即 使 是 一 个 很 简单 的 所 处 理 器 ， 其 设计 中 还 是 有 很 多 方式 会 引入 詹 隐 。 使 
用 流水 线 时 ， ep 令 之 间 有 许多 不 易 察觉 的 交互 。 我 们 看 到 一 些 设计 上 的 挑 
战 来 自 于 环 常 见 的 指令 〈 例 如 弹出 值 到 栈 指针 )， 或 是 不 常见 的 指令 组 合 〈 例 如 不 选择 分 支 的 中 
转 指 es 还 看 到 异常 处 理 增加 了 一 类 全 新 的 可 能 的 流水 线 行为 。 那 么 怎样 
确定 我 们 的 设计 是 正确 的 呢 ? 对 于 硬件 制造 者 来 说 ， 这 是 主要 关心 的 问题 ， 因 为 他 们 不 能 简单 地 
报告 一 个 错误 ， 让 用 户 通过 Internet 下 载 代码 补丁 。 即 使 是 简单 的 运 辑 设计 错误 都 可 能 有 很 严重 
的 后 果 ， 特 别 是 随 着 微 处 理 器 越 术 越 多 地 用 于 我 们 生命 和 健康 至 关 重 要 的 夭 统 ， 例 如 汽车 防 抱 死 
制 动 系统 、 心 脏 起 捕 器 ， 以 及 航空 控制 系统 。 

简单 地 模拟 设计 ， 运行 一 些 “典型 的 ” 程序 ， 不 足以 用 来 测试 一 个 系统 。 相反 ， 全 面 的 测试 
需要 设计 一 些 方 法 ， 系 统 地 产生 许多 测试 尽 可 能 多 地 使 用 不 同 指令 和 指令 组 合 。 在 创建 Y86 处 
理 器 的 过 程 中 ， 我 们 还 设计 了 很 多 测试 脚本 ， 每 个 脚本 都 产生 出 很 多 不 同 的 测试 ， 运 行 处 理 器 模 
拟 ， 并 且 比 较 得 到 的 寄存 器 和 存储 器 值 和 我 们 YIS 指令 集 模拟 器 产生 的 值 。 以 下 是 这 些 脚 本 的 
简要 介绍 : 

optest : 运行 49 个 不 同 的 Y86 指令 测试 ， 具 有 不 同 的 源 和 目的 寄存 器 。 

jtest : 运行 64 个 不 同 的 跳 转 和 函数 调用 指令 的 测试 ， 具 有 不 同 的 是 否 选择 分 支 的 组 合 。 

cmtest : 运行 28 个 不 同 的 条 件 传送 指令 的 测试 ， 具 有 不 同 的 控制 组 合 。 

pg SD dec ee et ls 的 组 合 ， 在 这 

令 对 之 间 有 不 同 数量 的 nop 指令 。 

ea 测试 22 个 不 同 的 控制 组 合 ， 基 于 类 似 4.5.11 节 中 我 们 做 的 那样 的 分 析 。 

etest , 测试 12 种 不 同 的 导致 异常 的 指 4 令 和 跟 在 后 面 可 能 改变 程序 员 可 见 状态 的 指令 组 合 。 

这 种 测试 方法 的 关键 思 i 
水 线 错 误 的 条 件 。 


形式 化 地 验证 我 们 的 设计 
即使 一 个 设计 通过 了 广泛 的 测试 ， 我 们 也 不 能 保证 对 于 所 有 可 能 的 程序 ， 它 者 能 正确 运行 。 
即使 只 考虑 由 短 的 代码 段 组 成 的 测试 ， 可 以 测试 的 可 能 的 程序 的 数量 也 大 得 难以 想象。 不 过 ， 形 
式 化 验证 《formal verification》 这 种 新 方法 能 够 保证 有 工具 能 够 严格 地 考虑 一 个 系统 所 有 可 能 的 
行为 ， 并 确定 是 否 有 设计 错误 。 

我 们 能 够 应 用 形式 化 验证 Y86 处 理 器 较 早 的 一 个 版 本 [13]。 建立 一 个 框架 ， 比 较 流水 线 化 
的 设计 PIPE 和 非 流 水 线 化 的 版 本 SEQ。 也 就 是 ， 它 能 够 证 明 对 于 任意 Y86 程序 ， 两 个 处 理 器 对 
程序 员 可 见 的 状态 有 完全 一 样 的 影响 。 当 然 ， 我 们 的 验证 器 不 可 能 真 的 运行 所 有 可 能 的 程序 ， 因 
为 这 样 程序 的 数量 是 无 穷 大 的 。 相反 ， 它 使 用 了 归纳 法 来 证 明 ， 表明 两 个 处 理 器 之 间 在 一 个 周 
期 到 一 个 周期 的 基础 上 都 是 一 致 的 。 进行 这 种 分 析 要 求 用 符号 方法 〈symbolic methods) 来 推导 
硬件 ， 在 使 用 符号 方法 时 ， 我 们 认为 所 有 的 程序 值 痢 是 任意 的 整数 ， 将 ALU 抽象 成 菜 种 “ 黑 全 
子 ”， 根 据 它 的 参数 计算 某 个 未 指定 的 函数 。 我 们 只 假设 SEQ 和 了 PIPE 的 ALU 计算 相 同 的 函数 。 | 

用 控制 逻辑 的 HCL 描述 来 产生 符号 处 理 器 模型 的 控制 逻辑 ， 因此 我 们 能 发 现 HCL 代码 中 的 
问题 。 能 够 证 明 SEQ 和 了 PIPE 是 完全 相同 的 ， 也 不 能 保证 它们 中 实地 实现 了 Y86 指令 集体 系 结 
构 。 不 过 ， 它 能 够 发 现任 何 由 于 不 正确 的 流水 线 设计 导致 的 错误 ， 这 是 设计 错误 的 主要 来 源 。 加 

在 实验 中 ， 我 们 不 仅 验 证 了 在 本 章 中 考虑 的 PIPE 版 本 ， 还 验证 了 作为 家 庭 作 业 的 几 个 变 
种 ， 其 中 ， 我 们 增加 了 更 多 的 指令 ， 修 改 了 硬件 的 能 力 ， 或 是 使 用 了 不同 的 分 支 预测 策略 。 有 趣 
SD 0 
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组 合 B (在 4.5.11 节 中 讲述 的 )。 ne 点 ， ctest 此 测试 脚本 中 
增加 了 附加 的 情况 。 i 

形 ee 阶段 。 Ce 它 的 工具 往往 很 难 使 用 ， 而 且 还 不 能 验证 大 规模 的 设 
计 。 我 们 能 够 验证 Y86 处 理 器 部 分 原因 就 是 因为 它们 相对 比较 简单 。 即 使 如 此 ， 也 需要 几 周 的 
时 间 和 精力 ， 多 次 运行 那些 工具 ， 每 次 最 多 需要 8 个 小 时 的 计算 机 时 间 。 这 是 一 个 活 跌 的 研究 领 
域 ， 有 些 工具 成 为 可 用 的 商业 版 本 ， 有 些 在 Intel、AMD 和 IBM 这 样 的 公司 使 用 。 ee 


网 络 旁 注 ARCH :VLOG ， 流水 线 化 的 Y86 处 理 器 的 Verilog 实现 z ; 

正如 我 们 提 到 过 的 ， 现 代 的 远 辑 设计 包括 用 硬件 描述 语言 书 写 硬件 设计 的 文本 表示 。 然后 本 
可 以 通过 模拟 和 各 种 形式 化 验证 工具 来 测试 设计 。 一 旦 对 设计 有 了 信心 ,我 们 就 可 ee 
成 《logic synthesis) 工具 将 设计 翻译 成 实际 的 远 辑 电路 。 

我 们 用 Verilog 硬件 描 述 语言 开发 7 Y86 处 理 器 设计 的 模型 。 这 些 设计 将 实现 处 理 器 基本 构 
造 块 的 模块 和 直接 从 HCL 描述 产生 出 来 的 控制 逻辑 结合 了 起 来 。 我 们 能 够 合成 这 些 设计 的 一 些 ， 
将 远 辑 电路 描述 下 载 到 字段 可 编程 的 上 人 (FPGA) 硬件 上 ， 0 以 在 这 些 处 理 器 上 运行 实 际 的 
Y86 程序 。 


4.5. 12. 性 能 分 析 
我 们 可 以 看 到 ， 所 有 需要 流水 线 控制 逻辑 进行 特殊 处 理 的 条 件 ， 都 会 导致 流 水 线 不 能 够 实现 
每 个 时 钟 周期 发 射 一 条 新 指令 的 目标 。 我 们 可 以 通过 确定 往 流水 线 中 插入 气泡 的 频率 ， 来 衡量 这 
种 效率 的 损失 ， 因 为 插入 气泡 会 引发 未 使 用 的 流水 线 周 期 。 一 条 返回 指令 会 产生 三 个 气泡 ， 一 个 
加 载 /使 用 冒险 会 产生 一 个 ， 而 一 个 预测 错误 的 分 支 会 产生 两 个 。 我 们 可 以 通过 计算 PIPE 执行 
一 条 指令 所 需要 的 平均 时 钟 周 期 数 的 估计 值 ， 来 量化 这 些 处 罚 对 整体 性 能 的 影响 ， 这 种 衡量 方法 
称 为 CPI (Cycles Per Instruction， 每 指令 周期 数 )。 这 种 衡量 值 是 流水 线 平 均 吞 吐 量 的 倒数 ， 不 
过 时 间 单 位 是 时 钟 周 期 ， 而 不 是 微微 秒 。 这 是 一 个 设计 体系 结构 效率 的 很 有 用 的 衡量 标准 。; 

如 果 我 们 忽略 异常 带 来 的 性 能 损失 (异常 的 定义 表明 它 是 很 少 出 现 的 )， 另 一 种 思考 CPI 的 
方法 是 ， 假 设 我 们 在 处 理 器 上 运行 某 个 基准 程序 ， 并 观察 执行 阶段 的 运行 。 每 个 周期 ， 执 行 阶段 
要 么 会 处 理 一 条 指令 ， 然 后 这 条 指令 继续 通过 剩 下 的 阶段 ， 直 到 完成 ; 要 么 会 处 理 一 个 由 于 三 种 
特殊 : 情况 之 一 而 插入 的 气泡 。 如 果 这 个 阶段 一 共处 理 了 .C; 条 指令 积 Ci 个 气泡 ,那么 处 理 器 总 共 
需要 大 约 CHtCs. 个 时 钟 周期 来 执行 Ci 条 指令 。 我 们 说 “大 约 ” 人 
线 的 周期 。 于 是 ， 可 以 用 如 下 方法 来 计算 这 个 基准 程序 的 CPI : 

C 
一 1.0 + 


i 


CPpI= Ci 十 Co 
| De G, 
也 就 是 说 , CPI 等 于 10 加 上 一 个 处 罚 项 ene 这 个 项 表明 生 一 条 指 人 平均 要 插入 多 少 个 气泡 ， 
因为 只 有 三 种 指令 关 型 会 导 至 插 和 和气 泡 ， 我 们 可 以 将 这 个 外 罚 项 分 解 万 三 个 部 分 ， 


“CPI= rE 


这 里 ， 多 (load penalty， 加 载 处 罚 ) ,是 由 于 加 载 / 使 用 冒险 造成 暂停 时 插入 气泡 的 平均 数 ，mp 
(mispredicted branch penalty， 预 测 错 误 分 支 处 罚 ). 是 由 于 预 测 错误 取消 指令 时 插入 气泡 的 平均 
数 ， 而 preturn penalty， 返 回 处 罚 ) 是 由 于 ret 指令 造成 暂停 时 插入 气泡 的 平均 数 。 每 种 处 罚 
都 是 由 该 种 原因 引起 的 插入 气泡 的 总 数 (C, 的 一 部 分 》 除 以 执行 指令 的 总 数 (O08 

为 了 估计 每 种 处 罚 ， 我 们 需要 知道 相关 指令 《加 载 、 条 件 转移 和 返回 ) 的 出 现 频率 ， 以 及 对 
每 种 指令 特殊 情况 出 现 的 频率 。 对 CPI 的 计算 ， 我 们 使 用 下 面 这 组 频率 〈 等 同 于 [47] 和 [49] 中 
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报告 的 测量 值 ) : be 
。 加载 指 令 (mrmovl 和 pop1) 占 所 有 执行 指令 的 25%。 其 中 20% 会 导致 加 载 / 使 用 冒险 。 
" 茶 们 他 叉 指 今 站 所 有 执行 拍 令 且 20%0s 其中 60% 会 地 返 分 支 ， 网 40% 不 选择 分 赤 。 


















“返回 指令 占 所 有 执行 指令 的 2%。 
因此 ， 我 们 可 以 估计 每 种 处 罚 ， 它 是 指令 类 型 频率 、 条 件 出 现 频率 , .以 及 当 条 件 出 现时 插入 
气泡 数 的 乘积 : 
TE 7 到 
加 载 / 使 用 ip 0.25 0.20 0.05 
预测 错误 “ mp 0.20 0.40 2 .0.16 
返回 m 0.02 1.00 3 0.06 
| 


三 种 处 罚 的 总 和 是 0.27， 所 以 得 到 CPI 为 1.27。 : : 

我 们 的 目标 是 设计 一 个 每 个 周期 发 射 一 条 指令 的 流水 线 ， 也 就 是 CPI 为 1.0。 虽 然 没 有 完全 
达到 目标 ， 但 是 整体 性 能 已 经 很 不 错 了 。 我 们 还 能 看 到 ， 要 想 进 一 步 降低 CPI， 就 应 该 集中 注意 
力 预 测 错误 的 分 支 。 它 们 占 整 个 处 罚 0.27 中 的 0.16， 因 为 条 件 转移 非常 普遍 ， 我 们 的 预测 策略 
又 经 常 出 错 ， 而 每 次 预测 错误 都 要 取消 两 条 指 今 。 

医 王 练习 题 4.41 “假设 我 们 使 用 了 一 种 成 功率 可 以 达到 65% 的 分 支 预测 策略 ， 例 如 后 向 分 支 选 择 、 前 向 
分 支 就 不 选择 ， 见 4.5.4 节 。 那 么 对 CPI 有 什么 样 的 影响 ， 假 设 其 他 所 有 频率 都 不 变 。 

禄 弹 练习 题 4.42 让 我 们 来 分 析 你 为 练习 题 44 和 4.5 写 的 程序 中 使 用 条 件数 据 传 送 和 条 件 控制 转移 的 相 
对 性 能 。 假 设 用 这 些 程 序 计算 一 个 非常 长 的 数组 的 绝对 值 的 和 ， 所 以 整体 性 能 主要 由 内 循环 所 需要 的 
周期 数 决定 。 假 设 跳 转 指令 预测 为 选择 分 支 ， 而 大 约 50% 的 数组 值 为 正 。 

A. 平均 来 说 ， 这 两 个 程序 的 内 循环 中 执行 了 多 少 条 指令 ? 

” B. 平 均 来 说 ， 这 两 个 程序 的 内 循环 中 插入 了 多 少 个 气泡 ? 

C. 对 这 两 个 程序 来 说 ， 每 个 数组 元 素平 均 需要 多 少 个 时 钟 周期 ? 

4.5.13 ”未 完成 的 工作 
我 们 已 经 创建 了 PIPE 流水 线 化 的 微 处 理 器 结构 ， 设 计 了 控制 逻辑 块 ， 并 实现 了 处 理 普 通 流 

水 线 流 不 足以 处 理 的 特殊 情况 的 流水 线 控制 逻辑 。 然而 ，PIPE 还 是 缺乏 一 些 实际 微 处 理 器 设计 

中 所 必需 的 关键 特性 。 我 们 会 强调 其 中 一 些 ， 并 讨论 要 增加 这 些 特性 需要 些 什 么 。 

1. 多 周期 指令 

Y86 指令 集中 的 所 有 指令 都 包括 一 些 简单 的 操作 ， 例如 数字 加 法 。 这 些 操 作 可 以 在 执行 阶段 
中 一 个 周期 内 处 理 完 。 在 一 个 更 完整 的 指令 集中 ， 我 们 还 将 实现 一 些 需要 更 为 复杂 操作 的 指令 ， 
例如 ， 整 数 乘法 和 除法 ， 以 及 浮 点 运算 。 在 一 个 像 PIPE 这 样 性 能 中 等 的 处 理 器 中 ， 这 些 操作 的 
典型 执行 时 间 从 浮 点 加 法 的 3 或 4 个 周期 到 整数 除法 的 32 个 周期 。 为 了 实现 这 些 指令 ， 我 们 既 
需要 额外 的 硬件 来 执行 这 些 计算 ， 还 需要 一 种 机 制 来 协调 这 些 指令 的 处 理 与 流水 线 其 他 部 分 之 间 
的 关系 。 

“实现 多 周期 指令 的 一 种 简单 方法 就 是 简单 地 扩展 执行 阶段 逻辑 的 功能 ， 添 加 一 些 整 数 和 浮 点 
算术 运算 单元 。 一 条 指令 在 执行 阶段 中 逗留 它 所 需要 的 多 个 时 钟 周期 ， 会 导致 取 指 和 译 码 阶段 暂 
停 。 这 种 方法 实现 起 来 很 简单 ， 但 是 得 到 的 性 能 并 不 是 太 好 。 

通过 采用 独立 于 主流 水 线 的 特殊 硬件 功能 单元 来 处 理 较 为 复杂 的 操作 ， 可 以 得 到 更 好 的 
性 能 。 通 常 ， 有 一 个 功能 单元 来 执行 整数 乘法 和 除法 ， 还 有 一 个 来 执行 浮 点 操作 。 当 一 条 指令 








免 4 莫 处理 器 人 负 乡 药 307 . 


进入 译 码 阶段 时 ， 它 可 以 被 发 射 到 特殊 单元 。 在 这 个 特殊 单元 执行 该 操作 时 ， 流 水 线 会 继续 处 理 
其 他 指令 。 通 常 ， 浮 点 单元 本 身 也 是 流水 线 化 的 ， 因 此 多 条 指令 可 以 在 主流 水 线 和 各 个 单元 中 并 
发 执行 。 
不 同 单元 的 操作 必须 同步 ， 以 避免 出 错 。 比 如 说 ， 如 果 在 不 同 单元 执行 的 各 个 指令 之 间 有 数 
据 相 关 ， 控 制 逻辑 可 能 需要 暂停 系统 的 某 个 部 分 ， 直 到 由 系统 其 他 某 个 部 分 处 理 的 操作 的 结果 完 
成 。 经 常 使 用 各 种 形式 的 转发 ， 将 结果 从 系统 的 一 个 部 分 传递 到 其 他 部 分 ， 这 和 前 面 PIPE 各 个 
阶段 之 间 的 转发 一 样 。 虽然 与 PIPE 相 比 ， 整 个 设计 变 得 更 复杂 ， 但 还 是 可 以 使 用 暂停 、 转 发 ， 
以 及 流水 线 控制 等 同样 的 技术 ， 使 整体 行为 与 顺序 的 ISA 模型 相 匹配 。 

2. 与 存储 系统 的 接口 

在 PIPE 的 描述 中 ， 我 们 假设 取 指 单元 和 数据 存储 器 都 可 以 在 一 个 时 钟 周期 内 读 或 是 写 存储 
器 中 任意 的 位 置 。 我 们 还 忽略 了 由 自我 修改 代码 造成 的 可 能 冒险 ， 在 自我 修改 代码 中 ， 一 条 指令 
对 一 个 存储 区 域 进 行 写 ， 而 后 面 又 从 这 个 区 域 中 读 取 指令 。 进 一 步 说 ， 是 以 存储 器 位 置 的 虚拟 地 
址 来 引用 它们 的 ， 这 要 求 在 执行 实际 的 读 或 写 操作 之 前 ， 要 将 虚拟 地 址 翻译 成 物理 地 址 。 显 然 ， 
要 在 一 个 时 钟 周期 内 完成 所 有 这 些 处 理 是 不 现实 的 。 更 糟糕 的 是 ， 要 访 Op 
磁盘 上 ， 这 会 需要 上 百 万 个 时 钟 周期 才能 把 数据 读 和 到 人 处理 器 存储 器 中 。 

正如 将 在 第 6 章 和 第 9 章 中 讲述 的 那样 ， 处 理 器 的 存储 系统 是 由 多 种 硬件 存储 器 和 管理 虚拟 
存储 器 的 操作 系统 软件 共同 组 成 的 。 存 储 系统 被 组 织 成 一 个 层次 结构 ， 较 快 但 是 较 小 的 存储 器 保 
持 着 存储 器 的 一 个 子 集 ， 而 较 慢 但 是 较 大 的 存储 器 作为 它 的 后 备 。 最 靠近 处 理 器 的 一 层 是 高 速 缕 
看 〈cache) 存储 器 ， 它 提供 对 最 常 使 用 的 存储 器 位 置 的 快速 访问 。 一 个 典型 的 处 理 器 有 两 个 第 
一 层 高 速 缓存 一 一 一 个 用 于 读 指令 ， 一 个 用 于 读 和 写 数 据 。 另 一 种 类 型 的 高 速 缓 存 存 储 器 ， 称 为 
翻译 后 备 缓冲 器 (Translation Look-aside Buffer) 或 TLB， 它 提供 了 从 虚拟 地 址 到 物理 地 址 的 快 
速 翻译 。 将 TLB 和 高 速 缓存 结合 起 来 使 用 ， 在 大 多 数 时 候 ， 确 实 可 能 在 一 个 时 钟 周期 内 读 指令 
并 读 或 是 写 数据 。 因 此 ， 我 们 的 处 理 器 对 访问 存储 器 的 简化 看 法 实际 上 是 很 合理 的 。 

虽然 高 速 缓存 中 保存 最 常 引 用 的 存储 器 位 置 ， 但 是 有 时 候 还 会 出 现 高 速 缓存 不 命中 〈miss)， 
也 就 是 有 些 引 用 的 位 置 不 在 高 速 缓存 中 。 在 最 好 的 情况 下 ， 可 以 从 较 高 层 的 高 速 缓存 或 处 理 器 的 
主 存 中 找到 不 命中 的 数据 ， 这 需要 3 ~ 20 个 时 钟 周期 。 同 时 ， 流 水 线 会 简单 地 暂停 ， 将 指令 保 
持 在 取 指 或 访 存 阶 段 ， 直 到 高 速 缓存 能 够 执行 读 或 写 操作 。 至 于 流水 线 设计 ， 通 过 添加 更 多 的 暂 
停 条 件 到 流水 线 控制 逻辑 ， 就 能 实现 这 个 功能 。 高 速 缓存 不 命中 以 及 随 之 而 来 的 与 流水 线 的 同步 
都 完全 是 由 硬件 来 处 理 的 ， 这 样 能 使 所 需 的 时 间 尽 可 能 地 缩短 到 很 少数 量 的 时 钟 周 期 。 

在 有 些 情 况 ， 被 引用 的 存储 器 位 置 实际 上 是 存储 在 磁盘 存储 器 上 的 。 此 时 ， 硬 件 会 产生 一 个 
缺 页 〈page fault) 异常 信号 。 同 其 他 异常 一 样 ， 这 个 异常 会 导致 处 理 器 调用 操作 系统 的 异常 处 理 
程序 代码 。 然 后 这 段 代 码 会 发 起 一 个 从 磁盘 到 主 存 的 传送 操作 。 一 旦 完成 ， 操 作 系 统 会 返回 到 原 
来 的 程序 ， 而 导致 缺 页 的 指令 会 被 重新 执行 。 这 次 ， 存 储 器 引用 将 成 功 ， 虽 然 可 能 会 导致 高 速 组 
存 不 命中 。 让 硬件 调用 操作 系统 例 程 ， 然 后 操作 系统 例 程 又 会 将 控制 返回 给 硬件 ， 这 就 使 得 硬件 
和 系统 软件 在 处 理 缺 页 时 能 协同 工作 。 因 为 访问 磁盘 需要 数 百 万 个 时 钟 周期 ，OS 缺 页 中 断 处 理 
程序 执行 的 处 理 所 需 的 几 百 个 时 钟 周 期 对 性 能 的 影响 可 以 忽略 不 计 。 

从 处 理 器 的 角度 来 看 ， 将 用 暂停 来 处 理 短 时 间 的 高 速 缓存 不 命中 和 用 异常 处 理 来 处 理 长 时 间 
的 缺 页 结合 起 来 ， 能 够 顾及 到 存储 器 访问 时 由 于 存储 器 层次 结构 引起 的 所 有 不 可 预测 性 。 


当前 的 微 处 理 器 设计 
一 个 五 阶段 流水 线 ， 例 如 已 经 讲 过 的 PIPE 处 理 器 ， 代 表 了 20 世纪 80 年 代 中 期 的 处 理 器 设 
计 水 平 。Berkeley 的 Patterson 研究 组 开发 的 RISC 处 理 器 原型 是 第 一 个 SPARC 处 理 器 的 基础 ， 
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它 是 Sun Microsystems 在 1987 年 开发 的 。Stanford 的 Hennessy 研究 组 开发 的 处 理 器 由 MIPS 
Technologies (一 个 由 Hennessy 成 立 的 公司 ) 在 1986. 年 商业 化 了 。 这 两 种 处 理 器 都 使 用 的 是 五 
阶段 流水 线 。Intel 的 i486 处 理 器 用 的 也 是 五 阶段 流水 线 ， 只 不 过 阶段 之 间 的 职责 划分 不 太一 样 ， 
它 有 两 个 译 码 阶段 和 一 个 合并 的 执行 / 访 存 阶 段 [33]。: ee 
“这些 流 水 线 化 设计 的 吞吐 量 都 限制 在 最 多 一 个 时 钟 周期 一 条 指令 。 4.5:12 小 节 中 描述 的 CPI 
(Cycles Per Instruction， 每 指令 周期 ) 测量 值 不 可 能 小 于 1.0。 不 同 的 阶段 一 次 只 能 处 理 一 条 指 
令 。 较 新 的 处 理 器 支持 超标 量 (Superscalar) 操作 ， 意 味 着 它们 通过 并 行 地 取 指 、 译 码 和 执行 多 
条 指令 ， 可 以 实现 小 于 1.0 的 .CPI。. 当 超标 量 处 理 器 已 经 广泛 使 用 时 ， 性 能 测量 标准 已 经 从 CPI 
转化 成 了 它 的 倒数 一 每 周期 执行 指令 的 平均 数 ， 即 PC。 对 超标 量 处 理 器 来 说 ，IPC 可 以 大 于 
1.0。 最 先进 的 设计 使 用 了 一 种 称 为 乱 序 (out-of-order) 执行 的 技术 来 并 行 地 执行 多 条 指令 ， 执 
行 的 顺序 也 可 能 完全 不 同 于 它们 在 程序 中 出 现 的 顺序 ， 但 是 保留 了 顺序 ISA 模型 蕴含 的 整体 行 
为 。 作 为 对 程序 优化 讨论 的 一 部 分 ， 我 们 将 会 在 第 5 章 讨 论 这 种 形式 的 执行 。 

“不 过， 流水 线 化 的 处 理 器 并 不 只 有 传统 的 用 途 。 现 在 出 售 的 大 部 分 处 理 器 部 用 在 说 入 式 系 统 
中 ， 控 制 着 汽车 运行 、 消 费 产 品 ， 以 及 其 他 一 些 系统 用 户 不 能 直接 看 到 处 理 器 的 设备 。 在 这 些 应 
用 中 ， 与 性 能 较 高 的 模型 相 比 ， 流 水 线 化 的 处 理 器 的 简单 性 ， 会 降低 成 本 和 功 耗 需求 。 

“最 近 ， 随 着 多 核 处 理 器 受到 追 掺 ， 有 些 人 声称 通过 在 一 个 芯片 上 集成 许多 简单 的 处 理 器 ， 比 
使 用 少量 受 复 亲 的 处 理 器 能 获得 受 多 的 整体 计算 能 力 。 Se 
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我 们 已 经 看 到 ， 指 令 集体 系 结构 ， 即 ISA， 在 处 理 器 行为 就 指令 集合 及 其 编码 而 言 ) 和 如 
何 实现 处 理 器 之 间 提 供 了 一 层 抽象 。 Se Ee 顺序 说 明 ， 也 就 是 一 条 指令 执行 
完了 ， 下 一 条 指令 才 会 开始 。 

从 IA32 指令 开始 ， 大 大 简化 数据 类 型 、 地 址 模式 和 指令 编码 ， 我 们 定义 了 Y86 指令 集 。 得 
到 的 ISA 既 有 RISC 指令 集 的 属性 ， 也 有 CISC 指令 集 的 属性 。 然 后 ， 将 不 同 指令 组 织 放 到 五 个 
阶段 中 处 理 ， 在 此 ， 根 据 被 执行 指令 的 不 同 ， 每 个 阶段 中 的 操作 也 不 相同 。 据 此 ， 我 们 构造 了 
SEQ 处 理 器 ， 其 中 每 个 时 钟 周期 执行 一 条 指令 ， 它 会 通过 所 有 五 个 阶段 。 

”流水 线 化 通过 让 不 同 的 阶段 并 行 操作 ， 改 进 了 系统 的 吞吐 量 性 能 。 在 任意 一 个 给 定 的 时 刻 ， 
多 条 指令 被 不 同 的 阶段 处 理 。 在 引入 这 种 并 行 性 的 过 程 中 ， 我 们 必须 非常 小 心 ， 以 提供 与 程序 
的 顺序 执行 相同 的 程序 级 行为 。 通 过 重新 调整 SEQ 各 个 部 分 的 顺序 ， 引 入 流水 线 ， 我 们 得 到 
SEQ+，- 接 着 添加 流水 线 寄存 器 ， 创 建 出 PIPE 流水 线 。 然 后 ， 添 加 了 转发 逻辑 ， 加 速 了 将 结果 
从 一 条 指令 发 送 到 另 一 条 指令 ， 的 性 能 。 有 几 种 特殊 人 
制 馆 辑 来 暂停 或 取消 一 些 流水 线 阶段 。 

我 们 的 设计 中 包括 一 些 基本 的 异常 处 理 机 制 ， i 保证 具有 到 异常 指令 之 前 的 指令 会 影响 
程序 员 可 见 的 状态 。 实现 完整 的 异常 处 理 远 站 性 。 在 采用 了 更 深 流水 线 和 更 多 并 行 性 
的 系统 中 ， 要 想 正确 处 理 异 常 就 更 加 复杂 了 。 

在 本 章 中 ， 我 们 学 习 了 有 关 处 理 器 设计 的 几 个 重要 经 验 : 二 

“管理 复杂 性 是 首要 问题 。 想 要 优化 使 用 硬件 资源 ， 在 最 小 的 成 本 下 获得 最 大 的 性 能 。 为 了 

实现 这 个 目的 ， 我 们 创建 了 一 个 非常 简单 而 一 致 的 框架 ， 来 处 理 所 有 不 同 的 指令 类 型 。 有 
了 这 个 框架 ， 就 能 够 在 处 理 不 同 指 令 类 型 的 逻辑 中 共享 硬件 单元 。. . - 
。 我 们 不 需要 直接 实现 ISA。ISA 的 直接 实现 意味 着 一 个 顺序 的 设计 。 为 了 获得 更 高 的 性 能 ， 

”我们 想 运 用 硬件 能 力 以 同时 执行 许多 操作 ， 这 就 导致 要 使 用 流水 线 化 设计 。 通 过 仔细 设计 

和 分 析 ， 我 们 能 够 处 理 各 种 流水 线 冒险 ， 因 此 运行 一 个 程序 的 整体 效果 ， 同 用 ISA 模型 获 
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得 的 效果 完全 一 致 。 二 

。 硬件 设计 人 员 必 须 非 党 证 愤 小 心 。 一 旦 芯片 制造 出 来 ， 就 几乎 不 可 能 改正 任何 错误 了 = 
开始 就 使 设计 正确 是 非常 重要 的 。 这 就 意味 着 要 仔细 地 分 析 各 种 指令 类 型 和 组 合 ， 甚 至 那 
些 看 上 去 没有 意义 的 情况 ， 例 如 弹出 值 到 栈 指针 。 必须 用 系统 的 模拟 测试 程序 彻底 地 测试 4 
设计 。 在 开发 PIPE 的 控制 逻辑 中 ， 我 们 的 设计 有 个 细微 的 错误 ， 只 有 通过 对 控制 组 合 的 
仔细 而 系统 的 分 析 才 能 发 现 。 


网 络 旁 注 ARCH :HCL : Y86 处 理 器 的 HCL 描述 

本 章 已 经 双 介 绍 几 个 简单 的 豆 辑 设计 ， 以 及 Y86 处 理 器 SEQ 和 PIPE 的 控制 逻辑 的 部 分 HCL 
代码 。 我 们 提供 了 HCL 语言 的 文档 和 这 两 个 处 理 器 控制 运 辑 的 完整 HCL 描述 。 这 些 描述 每 个 都 
只 需要 5~7 页 HCL 代码 ， 完 整地 研究 它们 是 很 值得 的 。 


Y86 模拟 器 
本 章 的 实验 资料 包括 SEQ 和 PIPE 处 理 器 的 模拟 器 。 每 个 模拟 器 都 有 两 个 版 本 : 
。GUI (图 形 用 户 界 面 ) 版 本 在 图 形 窒 口中 显示 存储 器 、 程 序 代码 以 及 处 理 器 状态 。 它 提供 
ee | 控制 面板 还 允许 你 ET 动 、 单 步 或 
运行 模拟 器 。 
.文本 版 本 运行 的 是 相同 的 模拟 器 ， 但 是 它 显示 信 县 的 唯一 方式 是 打印 到 终端 。 Wn 
讲 ， 这 个 版 本 不 是 很 有 用 ， 但 是 它 允 许 处 理 器 的 自动 测试 。 
这 些 模 拟 器 的 控制 逻辑 是 通过 将 逻辑 块 的 HCL 声明 翻译 成 C 代码 产生 的 。 然后 ， 编译 这 些 
代码 并 与 模拟 代码 的 其 他 部 分 进行 链接 。 这 样 的 结合 使 得 你 可 以 用 这 些 模拟 器 测试 原 始 设计 的 各 
种 变种 。 提 供 的 测试 脚本 ， 全 面 地 测试 各 种 指令 以 及 各 种 冒险 的 可 能 性 。 | 


参考 文献 说 明 


对 于 那些 有 兴趣 更 多 地 学 习 逻 辑 设 计 的 人 来 说 ，Katz 的 沁 辑 设计 教科 书 [56] 是 标准 的 入 门 
教材 ， 它 强调 了 硬件 描述 语言 的 使 用 。 

Hennessy 和 Patterson 的 计算 机 体系 结构 教科 书 [49] 覆盖 了 处 理 器 设计 的 广 泛 内 容 ， 包 括 这 
里 讲述 的 简单 流水 线 ， 还 有 并 行 执行 更 多 指令 的 更 高 级 的 处 理 器 。Shriver 和 Smith[97] 详细 介绍 
了 AMD 制造 的 与 Intel 线 容 的 IA32 处 理 器 。 


家 庭 作业 


*4.43 ”在 3.4.2 节 中 ， em ee 然后 将 寄存 器 存储 在 术 指 针 的 位 置 因此 ， 
如 果 我 们 有 一 条 指令 形 如 对 于 茶 个 寄存 器 REG，pushl REG， 它 等 价 于 下 面 的 代码 序列 : 


subl] $4,%esp Decrement stack pointer 
movl1 REG, (hesp) Store REG on stack 


”A. 借助 于 练习 题 4.6 中 所 做 的 分 析 ， 这 段 代码 序列 正确 地 描述 了 指令 pushl%esp 的 行为 吗 ? 请 解释 。 
B. 你 该 如 何 改 写 这 段 代码 序列 ， 使 得 CR REO 一 样 ， ee 

”是 $esp 的 情况 ? 

*4.:44 3.4.2 节 中 ，IA32 popl 指令 被 描述 为 将 来 自 栈 顶 的 结 ; 果 复 制 到 目的 寄存 器 ,: 多 后 交 术 指针 注 人 

此， 如 果 我 们 有 一 条 指令 形 如 poplREG， 它 等 价 于 下 面 的 代码 序列 : 


mov] (%esp) ,REG Read REG from stack 
addl $4,X%esp «Increment stack pointer 
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A. 借助 于 练习 题 4.7 中 所 做 的 分 析 ， 这 段 代 码 序列 正确 地 描述 了 指令 popl%esp 的 行为 吗 ? 请 解释 。 
B. 你 该 如 何 改 写 这 段 代码 序列 ， 使 得 它 能 够 像 对 REG 是 其 他 寄存 器 时 一 样 ， 正 确 地 描述 REG 
是 sesp 的 情况 ? 
** 4.45 你 的 作业 是 写 一 个 执行 冒 泡 排序 的 Y86 程序 。 下 面 这 个 C 函数 用 数组 引用 实现 冒 泡 排 序 ， 供 你 参 
考 : 


/* Bubble sort: Array VerSion */ 
void bubble_a(int *data, int count) { 
int i, next; Gk 
for (next = 1; next < count; next++) { 
for (i = next-1; i >= 0; i--) 
if (data[i+1] < data[i]) { 
/x* Swap adjacent elements */ 
int t = data[i+1]; 
data[i+1] = data[i] ; 
data[i] = t; 


} 


A. 书写 并 测试 一 个 C 版 本 ， 它 用 指针 引用 数组 元 素 ， 而 不 是 用 数组 索引 。 
了 .书写 并 测试 一 个 由 这 个 函数 和 测试 代码 组 成 的 Y86 程序 。 你 会 发 现 模仿 编译 你 的 C 代码 产生 的 
IA32 代码 来 做 实现 会 很 有 帮助 。 人 ， 但 是 在 这 个 练 
”” 习 中 ， 你 可 以 使 用 有 符号 算术 运算 。 
** 4.46 修改 对 家 庭 作 业 445 所 写 的 代码 ， 用 条 件 传送 来 实现 目光 排序 函数 的 内 循环 中 的 测试 和 交换 。 
*4.47 如 3.7.2 小 节 中 讲述 的 那样 ，IA32 的 指令 leave 可 以 用 来 使 栈 为 返回 做 准备 。 它 等 价 于 下 面 这 个 
Y86 代码 序列 : 


rrmovl %ebp, %esp Set stack pointer to beginning of frame 
2 popl  %ebp Restore saved %ebp and set stack ptr to end of caller's frame 


假设 我 们 要 往 Y86 指令 集中 加 入 一 条 指令 ， 编 码 如 下 : 


字 节 0 1 2 3 4 5 
leave 


请 描述 实现 这 一 指令 所 执行 的 计算 。 可 以 参考 popl 的 计算 (图 4-20)。 

*4.48 ”在 Y86 示例 程序 中 ， 例 如 图 4-6 中 的 Sum 函数 ， 我 们 多 次 遇 到 想 将 一 个 常数 加 到 寄存 器 的 情况 〈 例 
如 第 12 和 13 行 ， 以 及 第 14 和 15 行 )。 这 要 求 首 先 用 1izmov1l 指令 将 一 个 寄存 器 设置 为 这 个 常数 ， 
然后 用 adql 指令 把 这 个 值 加 到 目的 寄存 器 。 假 设想 添加 一 条 新 指令 iadd1， 其 格式 如 下 : 


字 节 0 1 2 3 4 5 
uave [sr Vv | 
这 条 指令 将 常数 值 V 加 到 寄存 器 xrB。 请 描述 实现 这 一 指令 所 执行 的 计算 。 可 以 参考 irmov1l 和 
OP1 的 计算 (图 4-18)。 

**4.49 文件 seq-full.hcl 还 将 常数 ILEAVE 声明 为 十 六 进 制 值 D， 也 就 是 leave 的 指令 代码 ， 同 时 将 
常数 REBP 声明 为 7， 即 %ebp 的 寄存 器 ID。 修 改 实现 leave 指令 的 控制 雇 辑 块 的 HCL 描述 ， 就 
像 家 庭 作 业 4.47 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模 


拟 器 的 指导 。 
**4.50 文件 seq-full.hcl 包 含 SEQ 的 HCL 描述 并 将 常数 IIRADDL 声明 为 十 六 进 制 值 C， 也 就 是 
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iadql 的 指令 代码 。 修 改 实现 iadq1l 指令 的 控制 逻辑 块 的 HCL 描述 ， 就 像 家 庭 作业 4:48 中 描述 的 那 
样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测 试 模 拟 器 的 指导 。 

假设 要 创建 一 个 较 低 成 本 的 、 基 于 我 们 为 PIPE- 设计 的 结构 (图 4-41) 的 流水 线 化 的 处 理 器 ， 不 使 
用 旁 路 技术 。 这 个 设计 用 暂停 来 处 理 所 有 的 数据 相关 ， 直 到 产生 所 需 值 的 指令 已 经 通过 了 写 回 阶段 。 
文件 pipe~stall.hcl 包含 一 个 对 PIPE 的 HCL 代码 的 修改 版 ， 其 中 禁止 了 旁 路 座 辑 。 也 就 是 信 
号 e_valA 和 ee valB 只 是 简单 地 声明 如 下 : 


## DO NOT MODIFY THE FOLLOWING CODE. 

## No forwarding. valA is either valP or value from register file 

int d_valA = [. , 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 
1 : d_rvalA; # Use value read from register file 


]; 


## No forwarding. valB is value from register file 
int d_valB = d_rvalB; 


修改 文件 结尾 处 的 流水 线 控制 逻辑 ， 使 之 能 正确 处 理 所 有 可 能 的 控制 和 数据 冒险 。 作 为 设计 工作 的 
一 部 分 ， 你 应 该 分 析 各 种 控制 情况 的 组 合 ， 就 像 我 们 在 PIPE 的 流水 线 控制 轴 辑 设计 中 做 的 那样 。 
你 会 发 现 有 许多 不 同 的 组 合 ， 因 为 有 更 多 的 情况 需要 流水 线 暂 停 。 要 确保 你 的 控制 逻辑 能 正确 处 理 
每 种 组 合 情 况 。 可 以 参考 实验 资料 指导 你 如 何 为 解答 生成 模拟 器 以 及 如 何 测 试 。 

文件 pipe-full .hcl 还 包含 常数 ILEAVE 和 REBP 的 声明 。 修 改 该 文件 以 实现 指令 leave， 就 像 
家 庭 作 业 4.47 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 
器 的 指导 。 

文件 Pipe-ful1l.hcl 包含 一 份 PIPE 的 HCL 描述 ， 以 及 常数 值 IIADDL 的 声明 。 修 改 该 文件 以 实 
现 指令 iaddl， 就 像 家 庭 作业 4.48 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 
器 以 及 如 何 测试 模拟 器 的 指导 。 

文件 pipe-nt.hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_YES 声明 为 值 0， 即 无 条 件 转 移 指 令 的 
功能 码 。 修 改 分 支 预测 逻辑 ， 使 之 对 条 件 转移 预测 为 不 选择 分 支 ， 而 对 无 条 件 转移 和 call 预测 为 选 
择 分 支 。 你 需要 设计 一 种 方法 来 得 到 跳 转 目标 地 址 valC， 并 送 到 流水 线 寄存 器 M， 以 便 从 错误 的 分 
支 预测 中 恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

文件 pipe-btfnt .hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_YES 声明 为 值 0， 即 无 条 件 转移 指令 
的 功能 码 。 修 改 分 支 预测 逻辑 ， 使 得 当 valC<valP 时 (后 向 分 支 )， 就 预测 条 件 转 移 为 选择 分 支 ， 当 
ValC > valP 时 《前 向 分 支 )， 就 预测 为 不 选择 分 支 。( 由 于 Y86 不 支持 无 符号 运算 ， 你 应 该 使 用 有 符 


号 比较 来 实现 这 个 测试 。) 并 且 将 无 条 件 转移 和 call 预测 为 选择 分 支 。 你 需要 设计 一 种 方法 来 得 到 valc 


和 valP， 并 送 到 流水 线 寄 存 器 M， 以 便 从 错误 的 分 支 预测 中 恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 
生成 模拟 器 以 及 如 何 测 试 模拟 器 的 指导 。 

我 们 的 流水 线 化 的 设计 有 点 不 太 现实 ， 因 为 寄存 器 文件 有 两 个 写 端 口 ， 然 而 只 有 popl 指令 需要 对 
寄存 器 文件 同时 进行 两 个 写 操作 。 因 此 ， 其 他 指令 只 使 用 一 个 写 端口 ， 共 享 这 个 端口 来 写 valE 和 
valM。 下 面 这 个 图 是 一 个 对 写 回 逻辑 的 修改 版 ， 其 中 ， 将 写 回 寄存 器 ID (W_dstE 和 W dstM) 合 
并 成 一 个 信和 号 w_dstE， 同 时 也 将 写 回 值 (W_valE 和 WW valM) 合并 成 一 个 信号 w_valE : 
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用 HCL 写 的 执行 ee 


## Set E port register 1D 

int w_dstE = [ 
## writing from valM 
W_dstM != RNONE : W_dstM; 
1: W_dstE; 

] ; 


## Set E port Value 

int w_valE = [- 和 3 
W_dstM != RNONE : vel; 
让 

] ; 


对 这 些 多 路 复 用 颖 的 控制 由 dstE 确定 一 一 当 它 表明 有 茶 个 寄存 器 时 ， 就 选择 端口 的 值 ， 否 则 就 
选择 端口 M 的 值 。 
人 知 下 面 这 自 HCL 代码 所 示 ， 


## Bibabie register port M EE 
## Set M port register ID 
"int w_dstM = RNONE; 


## Set M port Value .-:. 
int W_valM = 0; 


ee B061 的 放流， 一 和 方 注 是 用 折 抽 这 拉动 大 站 处 闻 剖 仿 Bal <i 计 
A i i | a 


iaddl $4, hesp 
mrmovl 4%esp), 


A ea oe Men 
能 正确 工作 。 要 达到 这 个 目的 ， 可 以 让 译 码 阶段 的 座 辑 对 上 面 列 出 的 popl 指令 和 addl 指令 一 


视 同仁 ， 除 了 : 它 会 预测 下 一 个 PC 与 当前 PC 相等 以 外 。 在 下 一 个 周期 ， 再 次 取出 了 popl 指令 


但 是 指令 代码 变 成 了 特殊 的 值 IPOP2。 它 会 被 当 作 一 条 特殊 的 指令 来 处 理 ， 行 为 与 上 面 列 出 的 
mrmovl 指令 一 样 。 


文件 pipe_1whel 包 合 上 面 讲 的 修改 过 的 号 并 品尝 可 它 将 常数 IPOP2 声明 为 十 六 进 制 值 。 


”还 包括 信号 icode 的 定义 ， 它 产生 流水 线 寄存 器 D 的 icode 字段 。 可 以 修改 这 个 定义 ， 使 得 当 
第 二 次 取出 popl 指令 时 ， 揪 入 指 信 代 码 TPOP2。 这 个 HOCL 文件 还 包 合 信号 pe 的 声明 ， 也 就 是 


** 4.57 


标号 为 “Select PC” 的 块 〈 见 图 4-55) 在 取 指 阶段 产生 的 程序 计数 器 的 值 。 
修改 该 文件 中 的 控制 逻辑 ， 合 之 楼 屡 我 们 措 述 的 方式 来 处 理 popl 指令 。 可 以 参考 实验 资料 著 得 


“和 如何 为 你 的 解答 生成 模拟 器 以 及 如 何 测 试 模拟 器 的 指导 。 


在 我 们 的 PIPE 的 设计 中 ， 只 要 一 条 指令 执行 了 1oad 操作 ， 从 存储 器 中 读 一 个 值 到 寄存 颖 并 且 下 
一 条 指令 要 用 这 个 寄存 器 作为 源 操作 数 ,就 会 产生 一 个 暂停 。 如 果 要 在 执行 阶段 中 使 用 这 个 源 操作 
数 ， 暂 停 是 避免 冒险 的 唯一 方法 。 … 

对 于 第 二 条 指令 将 源 操作 数 存储 到 存储 器 的 情况 ， 例如 rmmov1l 或 pushl 指令 ， 是 不 需要 这 
样 的 暂停 的 。 考 虑 下 面 这 段 代 码 示例 : 
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1 mrmovl] 0(%ecx) ,yedx # Load 1 
2 pushl wedx # Store 1 
3 nop 

4 popl %edx # Load 2 
5 rmmovl %eax,O0(%edx) # Store 2 


在 第 1 行 和 第 2 行 ，mrmov1l 指令 从 存储 器 读 一 个 值 到 %edx， 然 后 pushl 指令 将 这 个 值 压 入 栈 
中 。 我 们 的 PIPE 设计 会 让 pushl 指令 暂停 ， 以 避免 装载 /使 用 冒险 。 不 过 ， 可 以 看 到 ，pushl 指令 
要 到 访 存 阶段 才 会 需要 %edx 的 值 。 我 们 可 以 再 添加 一 条 旁 路 通路 ， 如 图 4-69 所 示 ， 将 存储 器 输出 
(信号 m_valM) 转发 到 流水 线 寄存 器 M 中 的 valR 字段 。 在 下 一 个 时 钟 周期 ， 被 传送 的 值 就 能 写 入 存 
储 器 了 。 这 种 技术 称 为 加 载 转发 〈load forwarding)。 





i es 王 
有 | valE valM [Fe dstE |dstM 上 
人 
8 人 1 和 






| dstE [dstM | srcA |srcB 


。 通 过 添加 一 条 从 存储 器 输出 到 流水 线 寄 存 器 M 
中 valA 的 源 的 旁 路 通路 ， 对 于 这 种 形式 的 加 载 /使 用 冒险 ,我 们 可 以 使 用 转发 而 不 必 暂 
停 。 这 是 家 庭 作业 4.57 的 主旨 


注意 ， 上 述 代码 序列 中 的 第 二 个 例子 〈 第 4 行 和 第 5 行 ) 不 能 利用 加 载 转发 。popl 指令 加 载 的 值 是 

作为 下 一 条 指令 地 址 计算 的 一 部 分 的 ， 而 在 执行 阶段 而 非 访 存 阶 段 就 需要 这 个 值 了 。 

A. 写 出 描述 发 现 加 载 /使 用 冒险 条 件 的 逻辑 公式 ， 类 似 于 图 4-64 所 示 ， 除 了 能 用 加 载 转发 时 不 会 时 
致 暂停 以 外 。 

B. 文件 pipe-1f.hcl 包含 一 个 PIPE 控制 逻辑 的 修改 版 。 它 含有 信号 e_valR 的 定义 ， 用 来 实现 
图 4-69 中 标号 为 “Fwd A” 的 块 。 它 还 将 流水 线 控制 座 辑 中 的 加 载 / 使 用 冒险 的 条 件 设置 为 0， 因 
此 流水 线 控制 座 辑 将 不 会 发 现任 何 形式 的 加 载 /使 用 冒险 。 修 改 这 个 HCL 描述 以 实现 加 载 转发 。 
可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 
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x+ 4.58 ”比较 两 个 版 本 的 冒 泡 排序 的 性 能 (家 庭 作业 4.45 和 4.46)。 解 释 为 什么 一 个 版 本 的 性 能 比 另 一 个 
的 好 。 


练习 题 答 案 
练习 题 4.1 手工 对 指令 编码 是 非常 乏味 的 ， 但 是 它 将 巩固 你 对 汇编 器 将 汇编 代码 变 成 字 节 序列 的 理解 。 在 
下 面 这 上段 Y86 汇编 器 的 输出 中 ， 每 一 行 都 给 出 了 一 个 地 址 和 一 个 从 该 地 址 开始 的 字 节 序列 : 


1 0x100: | .pos Ox100 # Start code at address Ox100 

2 0x100: 30f30f000000 | irmov] $15,%ebx # Load 15 into %ebx 

3 Ox106: 2031 | rrmov] %ebx,%ecx # Copy 15 to %ecx 

4 Ox108: | loop: # loop: 

S Ox108: 4013fdffffff | rmmov] hecx,-3(hebx) # Save %ecx at address 15-3 = 12 
6 Oxi0e: 6031 | addl %ebx,%ecx # Increment %ecx by 15 

7 Ox110: 7008010000 | jmp loop # Goto loop 

这 段 编码 有 以 下 特性 值得 注意 : 


。 十 进 制 的 15 (第 2 行 ) 的 十 六 进 制 表示 为 0x0000000f。 以 反 向 顺序 来 写 就 是 0f 00 00 00。 

。 十进制 -3 (第 $5 行 ) 的 十 六 进 制 表 示 为 0xfffffffd。 以 反 向 顺序 来 写 就 fd ff ff ff。 

。 代 码 从 地 址 0x100 开始 。 第 一 条 指令 需要 6 个 字 节 ， 而 第 二 条 需要 2 个 字 节 。 因 此 ， 循 环 的 目标 地 

址 为 0x00000108。 以 反 向 顺序 来 写 就 是 08 01 00 00。 
练习 题 4.2 ”对 一 个 字 节 序列 进行 手工 译 码 能 帮助 你 理解 处 理 器 面临 的 任务 。 它 必须 读 入 字 节 序列 ， 并 确定 
要 执行 什么 指令 。 接 下 来 ， 我 们 给 出 的 是 用 来 产生 每 个 字 节 序列 的 汇编 代码 。 在 汇编 代码 的 左边 ， 你 可 以 
看 到 每 条 指令 的 地 址 和 字 节 序列 。 

A. 一 些 带 立即 数 和 地 址 偏 移 量 的 操作 : 


Ox100: 30f3fcffffff | irmovl $-4,%hebx 
Ox106: 406300080000 | rmmovl] Wesi,Ox800(%ebx) 
0xl0c: 00 | halt 


B. 包含 一 个 函数 调用 的 代码 : 


Ox200: a06f | Push1 %esi 

Ox202: 8008020000 | . call proc 

Ox207: 00 | halt 
”0x208: | proc: 

0x208: 30f30a000000 | irmov] $10,%ebx 
Ox20e: 90 | ret 

C. 包含 非法 指令 指示 字 节 0xf0 的 代码 : 

Ox300: 505407000000 | mrmovl 7(%esp),%ebp 
0x306: 10 | nop 

Ox307: £0 | .byte OxfO # invalid instruction code 
Ox308: bO1f | popl %ecx 


D. 包含 一 个 跳 转 操作 的 代码 : 


Ox400: | loop: 
Ox400: 6113 | subl %ecx, hebx 
0x402: 7300040000 | je loop 

| 


Ox407: 00 halt 
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E. pushl 指令 中 第 二 个 字 节 非法 的 代码 。 


Ox500: 
Ox502: 
Ox503: 


练习 题 4.3 


rSum: 


L38 : 
L39: 


6362 | Xxorl] hesi,%hedx 

a0 | .byte Oxa0 # pushl instruction code 

f0 | .byte 0Oxf0 # Invalid register specifier byte 
正如 题目 中 建议 的 那样 ， 我 们 修改 了 IA32 机 器 上 的 GCC 产生 的 代码 : 


# int Sum(int *Start, int Count) 
pushl %ebp 
rrmovl1 %esp,%ebp 


pushl %ebx # Save Value of %ebx 
mrmov] 8(%ebp),hebx # Get Start 

mrmov] 12(%ebp) ,heax # Get Count 

and] Weax,heax # Test value of Count 
jle L38 # If <= 0, goto zreturn 
irmov] $-1,%edx 

addl] hedx ,heax # Count-- 

Push] %eax # Push Count 


irmov] $4,%edx 
TImOV] Webx,%eax 
add] %hedx ,Weax 


pushl %eax # Push Start+1 

call rSum # Sum(Start+1, Count-1) 
mrmovl (%ebx) ,%edx 

addl Wedx,%heax # Add *Start 

jmp L39 # goto done 

XOIT1 Xeax ,heax # zreturn: 

mrmovl] -4(%ebp),%ebx # done: Restore %ebx 
rrmovl %ebp,%hesp # Deallocate stack frame 
popl %ebp # Restore ebp 


ret 


练习 题 4.4 ”这 道 题 给 了 你 一 个 练习 写 汇编 代码 的 机 会 。 


int AbsSun(int Start, int Count) 


1 AbsSum : 

2 pushl] %ebp 

3 rrmov] hesp,%ebp 

4 mrmovl 8(%ebp) ,hecx ecX = Start 

5 mrmovl1 12(%hebp) ,hedx edx = Count 

6 irmovl] $0, %eax SU = 0 

and]  %edx,%edx 

8 je End 

9 Loop: 

10 mrmov] (%ecx) ,hesi get X = «Start 
11 irmovl] $0 ,hedi 0 

多 subl Yesi ,%edi -x 

13 jle Pos SKip if ~x <= (0 
14 rrmov] %hedi ,Wesi X= 
15 Pos: 

16 add]1 hesi ,peax Add % FO Su 
17 irmovl $4,%ebx 

18 addl1 hebx,hecx Starttt 

19 irmovl $-1,%ebx 

20 add] ‘hebx,%hedx | Count ~—- 
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21 jne Loop Stop when 0 
22 End.: 

23 popl %ebp 

24 ret 


练习 题 4.5 ”这 道 题 给 了 你 一 个 练习 写 带 条 件 传送 汇编 代码 的 机 会 。 我 们 只 给 出 循环 的 代码 。 剩 下 的 部 分 与 
练习 题 4.4 的 一 样 。 


9 Loop: 

10 mrmovl (%ecx) ,hesi get x = *Start 
11 irmov] $0,%edi 0 

12 subl %esi,%edi -x 

13 cmovg pedi ,pesi if -x > 0 then x = -x 
14 add1l1 Whesi,%heax add x to SU 
15 irmovl]1 $4,%hebx 

16 add]1 Yebx ,yecxXx Start++ 

17 irmov] $-1 ,pebx 

18 addl %ebx ,hedx Count-- 

19 jne Loop Stop when 0 


练习 题 4.6 虽然 难以 想象 这 条 特殊 的 指令 有 什么 实际 的 用 处 ， 但 是 在 设计 一 个 系统 时 ， 在 描述 中 避免 
任何 歧义 是 很 重要 的 。 我 们 想 要 为 这 条 指令 的 行为 确定 一 个 合理 的 规则 ， 并 且 保 证 每 个 实现 都 遵循 这 
个 规则 。 

在 这 个 测试 中 ，subl 指令 将 $esp 的 起 始 值 与 压 入 栈 中 的 值 进行 了 比较 。 这 个 减法 的 结果 为 0， 表明 
压 入 的 是 $esp 的 旧 值 。 
练习 题 4.7 ”更 难以 想象 为 什么 会 有 人 想 要 把 值 弹 出 到 栈 指针 。 我 们 还 是 应 该 确定 一 个 规则 ， 并 且 坚 持 
它 。 这 段 代码 序列 将 0xabcd 压 入 栈 中 ， 弹 出 到 8sesp， 然 后 返回 弹出 的 值 。 由 于 结果 等 于 0xabcd， 我 
们 可 以 推断 出 popl%esp 将 栈 指针 设置 为 从 存储 器 中 读 出 来 的 那个 值 。 因 此 ， 它 等 价 于 指令 mrmov1 
(Sesp), Sesp。 


练习 题 4.8 EXCLUSIVE-OR 函数 要 求 两 个 位 有 相反 的 值 : 
bool xor = (la && b) || (a && !b); 


通常 ， 信 号 eq 和 xor 是 互补 的 。 也 就 是 ， 一 个 等 于 1， 另 一 个 就 等 于 0。 
练习 题 4.9 EXCLUSIVE-OR 电路 的 输出 是 位 相等 值 
的 补 。 根 据 德 摩根 定律 (网 络 旁 注 DATA:BOOL),， 我 ”ba 
们 能 用 OR 和 NOT 实现 AND， 得 到 如 下 电路 : 


as31 
: bso 
int Med3 = [ 
A<=B&gB<=C:B; 
30 
C <=B&&B <=A : B; 
B <= Ag&& A <=C : A; 
C <=A&& A <=B: A; 
1 : C; 


2 bi 


练习 题 4.10 ”这 个 设计 只 是 对 三 个 输入 中 找 出 最 小 值 
的 简单 改变 。 ; 0 
练习 题 4.11 这 些 练习 使 各 个 阶段 的 计算 更 加 具体 。 
从 目标 代码 中 我 们 可 以 看 到 ， 指 令 位 于 地 址 0x00e。 
它 由 6 个 字 节 组 成 ， 前 两 个 字 节 为 0x30 和 0x84。 后 四 个 字 节 是 0x00000080 十进制 128) 按 字 节 反 过 





由 


0 
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来 的 形式 。 





”通用 | 上 人 体 


icode:ifun 二 Mi[PC] | icode:ifun < Mi[0x00e]=3:0 
rA:rB <- MI[PC + 1] rA:rB 二 Mi[Ox00f]= 8:4 
valC < Ms[PC + 2] valC <«— Ms[0x010] = 128 

valP <«—PC+6 valP <— Ox00e +6= 0x014 




















valE 二 0 十 valC valE 二 0 十 128 = 128 





R[%esp] < valE = 128 





R[rB] <— valE 





PC < 一 valP PC <— valp = 0x014 





这 个 指令 将 寄存 器 sesp 设 为 128， 并 将 PC 加 6。 
练习 题 4.12 答案 我 们 可 以 看 到 指令 位 于 地 址 0x01c， 由 两 个 字 节 组 成 ， 值 分 别 为 0xb0 和 0x08。 
pushl 指令 (第 6 行 ) 将 寄存 器 %esp 设 为 了 124， 并 且 将 9 存放 在 了 这 个 存储 器 位 置 。 


icode:ifun <— Mi1[PC] | icode:ifun <— Mi[0x01c]=b:0 
rA:rB <— Mi[PC 十 Dy rA:rB <— Mi[0x01d]=0:8 


valP < PC 十 2 valP <— Ox01ic + 2 = Ox0ie 
valA < R[%esp] valA < R[%esp] = 124 


valB <— RI%espl] valB <«— RI%esp] = 124 


valE <— valB 十 4 valE <— 124 +4=128 
valM <— M4[valA] valM < 二 M4[124]= 9 


R[%esp] < valE RI%esp] < 二 128 
R[rA] <— valM R[%eax] <- 9 





PC < 一 valpP PC <— Ox01e 


该 指令 将 $eax 设 为 9， 将 sesp 设 为 28， 并 将 PC 加 2。 
练习 题 4.13 ” 沿 着 图 4-20 中 列 出 的 步骤 ， 这 里 rA 等 于 %esp， 我 们 可 以 看 到 ， 在 访 存 阶段 ， 指 令 会 将 
valRA， 即 栈 指针 的 原始 值 ， 存 放 到 存储 器 中 ， 与 我 们 在 IA32 中 发 现 的 一 样 。 
练习 题 4.14 党 着 图 4-20 中 列 出 的 步骤 ， 这 里 rA 等 于 %esp， 我 们 可 以 看 到 ， 两 个 写 回 操作 都 会 更 新 sesP。 
因为 写 valM 的 操作 后 发 生 ， 指 令 的 最 终 效 果 会 是 将 从 存储 器 中 读 出 的 值 写 入 Sesp， 就 像 在 IA32 中 看 到 
的 一 样 。 
练习 题 4.15 实现 条 件 传 送 只 需要 对 寄存 器 到 寄存 器 的 传送 做 很 小 的 修改 。 我 们 简单 地 以 条 件 测试 的 结果 
作为 写 回 步骤 的 条 件 : 


318 角 一 部分 胡 访 缕 芍 和 和 克 疗 


练习 题 4.16 我 们 可 以 看 到 这 条 指令 位 于 地 址 0x023， 长 度 为 5 个 字 节 。 第 一 个 字 节 值 为 0x80， 而 后 面 
4 个 字 节 是 0x00000029 按 字 节 反 过 来 的 形式 ， 即 调用 的 目标 地 址 。popl 指令 (第 7 行 ) 将 栈 指针 设 为 


128。 


这 条 指令 的 效果 就 是 将 sesp 设 为 124， 将 0x028 ( 


cmovXX rA, rB 
icode:ifun < Mi1[PC] 
rA:rB <— Mi1[PC+1] 
valP < 二 -PC 十 2 


valA < 二 RIrA] 


valE 二 -0 十 valA 
Cnd < Cond(CC, ifun) 


if (Cnd) 
R[rB] <— valE 


PC <— valP 








call Dest call Ox029 


icode:ifun «— MIPC] | icode:ifun 所 Mi[0x023]=8:0 

















valC < Ma[0x024] = 0x029 
valP < 0x023 + 5 = 0x028 


valC 二 M4[PC 二 1] 
valP «— PC+5 





valB <— R[%esp] valB < 二 R[%esp]j = 128 










valE <— 128 十 一 4 三 124 





valE <— valB 十 一 4 







M4[valE| < valp Ma[124] <— Ox028 









R[%esp] <*— valE R[%esp] 一 124 





PC < valC PC <— Ox029 . 


0x029〔 调 用 的 目标 地 址 )。 


练习 题 4.17 练习 题 中 所 有 的 HCL 代码 都 很 简单 明了 ， 但 是 试 着 自己 写 会 帮助 你 思考 各 个 指令 ， 以 及 如 
何 处 理 它们 。 对 于 这 个 问题 ， 我 们 只 要 看 看 Y86 的 指令 集 〈 见 图 4-2)， 确 定 哪 些 有 常数 字段 。 


bool need_valC 二 


icode in { IIRMOVL, IRMMOVL , IMRMOVL, IJXX, ICALL }; 


练习 题 4.18 这 段 代码 类 似 于 srcA 的 代码 : 


int srcB = [ 
icode in { IOPL, IRMMOVL, IMRMOVL } : rB; 
icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
: RNONE; # Don't need register 


返回 地 址 ) 存放 到 该 存储 器 地 址 ， 并 将 PC 设 为 
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练习 题 4.19 这 段 代码 类 似 于 dstE 的 代码 : 


int dstM = [ 

icode in { IMRMOVL, IPOPL } : rA 

1 : RNONE; # Don't write any register 
]; 


练习 题 4.20 像 在 练习 题 4.14 中 发 现 的 那样 ， 为 了 将 从 存储 器 中 读 出 的 值 存放 到 Sesp， Wh 


端口 写 的 优先 级 高 于 通过 玉 端口 写 。 
练习 题 4.21 这 段 代码 类 似 于 aluA 的 代码 : 


int aluB = [ 
icode in { IRMMOVL, IMRMOVL, IOPL, ICALL, 
IPUSHL, IRET, IPOPL } : valB; 
icode in { IRRMOVL, IIRMOVL } : 0; | 
# Other instructions don't need ALU 


]; 


练习 题 4.22 实现 条 件 传送 惊人 的 简单 : 当 条 件 不 满足 时 ， 通 过 将 目的 寄存 器 设置 为 RNONE 禁止 写 寄存 
器 文件 。 


int dstE = [人 
icode in { IRRMOVL } && Cnd : Ee 
icode in { IIRMOVL, IOPL} : 
icode in { IPUSHL, IPOPL, i IRET } : RESP ; 
1 : RNONE; # Don't Write any register 
J 


练习 题 4.23 ”这 段 代码 类 似 于 mem_addr 的 代码 : 


int mem_data = [ 
# Value from register 
icode in { IRMMOVL, IPUSHL + : valA; 
# Return PC 
icode == ICALL : valP: 
# Default: Don't write anything 
]; 


练习 题 4.24 ”这 段 代码 类 似 于 mem read 的 代码 : 


bool mem_write = icode in { IRMMOVL, IPUSHL, ICALL }; 


练习 题 4.25 计算 Stat 字段 需要 从 几 个 阶段 收集 状态 信息 


## Determine instruction status 

int Stat = [ 

imem_error || dmem_error : SADR.; 
linstr_valid: SINS; 

icode == IHALT : SHLT; 

1 : SADK; 

J3 | 


练习 题 4.26 ”这 个 题目 非常 有 趣 ， 它 试图 在 一 组 划分 中 找到 优化 平衡 。 它 提供 了 大 量 的 机 会 来 计算 许多 流 
水 线 的 吞吐 量 和 延迟 。 


320 党 一 疤 分 在 序 结 蒋 和 效 认 


A. 对 一 个 二 阶段 流水 线 来 说 ， 最 好 的 划分 是 块 A、B 和 C 在 第 一 阶段 ， 块 D、E 和 下 在 第 二 阶段 。 第 
一 阶段 的 延迟 为 170ps， 所 以 整个 周期 的 时 长 为 170+20=190ps。 因 此 吞吐 量 为 $5.26 GIPS， 而 延 述 
为 380ps。 

B. 对 一 个 三 阶段 流水 线 来 说 ， 应 该 使 块 A 和 B 在 第 一 阶段 ， 块 C 和 DD 在 第 二 阶段 ， 而 块 下 和 FF 在 第 
= 前 两 个 阶段 的 延迟 均 为 110ps， 所 以 整个 周期 时 长 为 130ps， 而 吞吐 量 为 7.69 GIPS。 还 民 
为 390ps。 

C. 对 一 个 四 阶段 流水 线 来 说 ， 块 A 为 第 一 阶段 块 B 和 C 在 第 二 阶段 ， 二 十条 阶段 ， 而 关 卫 和 
F 在 第 四 阶段 。 第 二 阶段 需要 90ps， 所 以 整个 周期 时 长 为 110ps， 而 吞吐 量 为 9.09 GIPS。 延 迟 为 
440ps。 

D. 最 优 的 设计 应 该 是 五 阶段 流水 线 ， 除 了 了 和 了 处 于 第 五 阶段 以 外 ， 其 他 每 个 块 是 一 个 阶段 。 周 期 时 
长 为 80+20=100ps， 吞 吐 量 为 大 约 10.00 GIPS， 而 延迟 为 S00ps。 变 成 更 多 的 阶段 也 不 会 有 帮助 了 ， 
因为 不 可 能 使 流水 线 运 行 得 比 以 100ps 为 一 周期 还 要 快 了 。 

练习 题 4.27 每 个 阶段 的 组 合 逻 辑 都 需要 300 ps， 而 流水 线 寄存 器 需要 20ps。 
A. 整个 的 延 遂 应 该 是 300 +20kps， 而 吞吐 量 〈 以 GIPS 为 单位 ) 应 该 是 


1000 1000k 
30 +20 300 十 20K 





B. 当 上 趋 近 于 无 穷 大 ， 知 吐 量变 为 1000/20=50 GIPS。 当 然 ， 这 也 使 得 延迟 为 无 穷 大 。 
这 个 练习 题 量 化 了 很 深 的 流水 线 引起 的 收益 下 降 。 当 我 们 试图 将 逻辑 分 割 为 很 多 阶段 时 ， 流 水 线 寄存 
器 的 延迟 成 为 了 一 个 制约 因素 。 
练习 题 4.28 ”这 段 代 码 非 常 类 似 于 SEQ 中 相应 的 代码 ， 除 了 我 们 还 不 能 确定 数据 存储 器 是 否 会 为 这 条 指令 
产生 一 个 错误 信和 号。 
# Determine status code for fetched instruction 
int f_stat = [ 
imem_error: SADR,; 
linstr_valid : SINS,; 
f_icode == IHALT : SHLT; 
1 : SADK; 
4 
练习 题 4.29 这 段 代码 只 是 简单 地 给 SEQ 代码 中 的 信号 名 前 加 上 前 级 “d_” 和 “D_”。 
int d_dstE = [ 
D_icode in { IRRMOVL, IIRMOVL, IOPL} : D_rB; 
D_icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 


1 : RNONE; # Don't write any register 
] ; 


练习 题 4.30 由 于 popl 指令 (第 4 行 ) 造成 的 加 载 / 使 用 冒险 ，rrmov1l 指令 (第 5 行 ) 会 暂停 一 个 周 
期 。 当 它 进入 译 码 阶 段 ，popl 指令 处 于 访 存 阶段 ， 使 M_dstE 和 M _dstM 都 等 于 %esp。 如 果 两 种 情况 反 
过 来 ， 那 么 来 自 M_valE 的 写 回 优先 级 较 高 ， 导 致 增加 了 的 栈 指 针 被 传送 到 rrmovl 指令 作为 参数 。 这 与 
练习 题 4.7 中 确定 的 处 理 popl%esp 的 惯例 不 一 致 。 加 
练习 题 4.31 这 个 问题 让 你 体验 一 下 处 理 器 设计 中 一 个 很 重要 的 任务 一 为 一 个 新 处 理 器 设计 测试 程序 。 
通常 ， 我 们 的 测试 程序 应 该 能 测试 所 有 的 冒险 可 能 性 ， 而 且 一 旦 有 相关 不 能 被 正确 处 理 ， 就 会 产生 错误 的 
结果 。 
对 于 此 例 ， 我 们 可 以 使 用 对 练习 题 4.30 中 所 示 的 程序 稍微 修改 的 版 本 : 
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irmov] $5, Wedx 


2 irmovl1 $0x100,%hesp 
3 rmmovl %edx,0(hesp) 
4 popl %esp 

5 nop 

6 nop 

7 


rrmov] Whesp,%heax 


两 个 nop 指令 会 导致 当 rrmovl 指令 在 译 码 阶段 中 时 ，popl 指令 处 于 写 回 阶段 。 如 果 给 予 处 于 写 回 
阶段 中 的 两 个 转发 源 错误 的 优先 级 ， 那 么 寄存 器 $eax 会 设置 成 增加 了 的 程序 计数 器 ， 而 不 是 从 存储 器 中 
读 出 的 值 。 
练习 题 4.32 ”这 个 逻辑 只 需要 检查 五 个 转发 源 : 


int d_valB = [ 


d_srcB == e_dstE : e_valk; # Forward valE from execute 
d_srcB == M_dstM : m_valM,; # Forward valM from memory 
d_srcB == M_dstE : M_valE; # Forward valE from memory 
d_srcB == W_dstM : W_valM; # Forward valM from write back 
d_srcB == W_dstE : W_valkE; # Forward valE from write back 


1 : d_rvalB; # Us value read from register file 


]; 
练习 题 4.33 ”这 个 改变 不 会 处 理 条 件 传 送 不 满足 条 件 的 情况 ， 因 此 将 dstE 设置 为 RNONE。 即 使 条 件 传送 
并 没有 发 生 ， 结 果 值 还 是 会 被 转发 到 下 一 条 指令 。 


irmovl] $0Ox123 ,heax 


1 

2 irmovl $0x321 ,pedx 

3 xorl %ecx,%ecx # CC = 100 

4 cmovne %eax,%edx # Not transferred 
5 addl] %edx,%edx # Should be 0x642 
6 halt 


这 段 代码 将 寄存 器 $edx 初始 化 为 0x321。 条 件数 据 传送 没有 发 生 ， 所 以 最 后 的 addl 指令 应 该 
把 %edx 中 的 值 翻 倍 ， 得 到 0x642。 不 过 ， 在 修改 过 的 版 本 中 ， 条 件 传送 源 值 0x321 被 转发 到 ALU 的 输 
入 valR， 而 valB 正确 地 得 到 了 操作 数值 0x123。 两 个 输入 加 起 来 就 得 到 结果 0x444。 
练习 题 4.34 这 段 代码 完成 了 对 这 条 指令 的 状态 码 的 计算 。 


## Update the status 

int m_stat = [ 
dmem_error : SADR; 
1 : M_stat,; 

]; 


练习 题 4.35 设计 下 面 这 个 测试 程序 是 用 来 建立 控制 组 合 A〈 图 4-67)， 并 探测 是 否 出 了 错 : 


# Code to generate a combination of not-taken branch and ret 


| 

2 irmovl] Stack, %esp 

3 irmovl1 rtnp,%eax 

4 pushl heax # Set up return pointer 

5 xorl] Weax,heax # Set Z condition code 

6 jne target # Not taken (First part of combination) 
7 irmovl1 $1,%eax # Should execute this 

8 halt 

9 target: ret # Second part of combination 


10 irmov] $2,%ebx # Should not execute this 
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全 halt 

12 Itnp: irmovl $3,%edx # Should not execute this 
13 halt 

14 .Pos Ox40 


15 Stack: 

设计 这 个 程序 是 为 了 出 错 ( 例 如， 如 果实 际 上 执行 了 ret 指令 ) 时 ， 程 序 会 执行 一 条 额外 的 irmov1l 
指令 ， 然 后 停止 。 因 此 ， 流 水 线 中 的 错误 会 导致 某 个 寄存 器 更 新 错误 。 这 上段 代码 说 明 实 现 测试 程序 需要 非 
常 小 心 。 它 必须 建立 起 可 能 的 错误 条 件 ， 然 后 再 探测 是 否 有 错误 发 生 。 
练习 题 4.36 设计 下 面 这 个 测试 程序 是 用 来 建立 控制 组 合 B ( 见 图 4-67) 的 。 模 拟 器 会 发 现 流水 线 寄存 器 
的 气泡 和 暂停 控制 信号 都 设置 成 0 的 情况 ， 因 此 我 们 的 测试 程序 只 需要 建立 它 需 要 发 现 的 组 合 情 况 。 最 大 
的 挑战 在 于 当 处 理 正确 时 ， 程 序 要 做 正确 的 事情 。 

1 # Test instruction that modifies %esp followed by ret 


irmovl mem,hebx 
mrmovl] 0(hebx),hesp # Sets hesp to point to return point 


As i NS 


ret # Returns to return point 
halt # 
6 rtnpt: irmov] $5,%hesi # Return point 
7 halt 
多 .pos Ox40 
9 menm: .long stack # Holds desired stack pointer 
10 .pos Ox50 
11 stack: .long rtnpt # Top of stack: Holds return point 





这 个 程序 使 用 了 存储 器 中 两 个 初始 化 了 的 字 。 第 一 个 字 (mem) 保存 着 第 二 个 字 (stack 一 一 期 望 的 栈 
指针 ) 的 地 址 。 第 二 个 字 保 存 着 ret 指令 期 望 的 返回 点 的 地 址 。 这 个 程序 将 栈 指 针 加 载 到 sesPp， 并 执行 
ret 指令 。 
练习 题 4.37 从 图 4-66 我 们 可 以 看 到 ， 由 于 加 载 / 使 用 冒险 ， 流 水 线 寄存 器 D 必须 暂停 。 


bool D_stall = 
# Conditions for a load/use hazard 
E_icode in { IMRMOVL, IPOPL } && 
E_dstM in { d_srcA, d_srcB }; 


练习 题 4.38 从 图 4-66 中 可 以 看 到 ， 由 于 加 载 / 使 用 冒险 ， 或 者 分 支 预测 错误 ， 流 水 线 寄 存 器 卫 必须 设置 
成 气泡 : 


bool E_bubble = 
# Mispredicted branch 
(E_icode == IJXX && le_Cnd) || 
# Conditions for a load/use hazard 
E_icode in { IMRMOVL, IPOPL } && 
E_dstM in { d_srcA, d_srcB}; 


练习 题 4.39 ”这 个 控制 需要 检查 正在 执行 的 指令 的 代码 ， 还 需要 检查 流水 线 中 更 后 面 阶段 中 的 异常 。 


## Should the condition codes be updated? 
bool set_cc = E_icode == IOPL && 
# State changes only during normal operation 
Im_stat in { SADR, SINS, SHLT } && !W_stat in { SADR, SINS, SHLT }; 


练习 题 4.40 ”在 下 一 个 周期 向 访 存 阶段 插入 气泡 需要 检查 当前 周期 中 访 存 或 者 写 回 阶段 中 是 否 有 异常 。 
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# Start injecting bubbles as soon as exception passes through memory stage 
bool M_bubble = m_stat in { SADR, SINS, SHLT } || W_stat in { SADR, SINS, SHLT }; 


对 于 暂停 写 回 阶段 ， 只 用 检查 这 个 阶段 中 的 指令 的 状态 。 如 果 当 访 存 阶段 中 有 异常 指令 时 我 们 也 暂停 
了 ， 那 么 这 条 指令 就 不 能 进入 写 回 阶段 。 


bool W_stall = W_stat in { SADR, SINS, SHLT }; 


练习 题 4.41 此 时 ， 预 测 错误 的 频率 是 0.35， 得 到 mp 二 0.20X0.35X2 = 0.14， 而 整个 CPI 为 1.25。 看 上 
去 收获 非常 小 ， 但 是 如 果实 现 新 的 分 文 预测 策略 的 成 本 不 是 很 高 的 话 ， 这 样 做 还 是 值得 的 。 
练习 题 4.42 在 这 个 简化 的 分 析 中 ， 我 们 把 注意 力 集 中 在 了 内 循环 上 ， 这 是 估计 程序 性 能 的 一 种 很 有 用 的 
方法 。 只 要 数组 足够 大 ， 花 在 代码 其 他 部 分 的 时 间 可 以 忽略 不 计 。 
A. 使 用 条 件 转移 的 代码 的 内 循环 有 11 条 指令 ， 当 数组 元 素 是 0 或 者 为 负 时 ， 这 些 指令 都 要 执行 ， 当 
数组 元 素 为 正 时 ， 要 执行 其 中 的 10 条。 平均 是 10.5 条 。 使 用 条 件 传送 的 代码 的 内 循环 有 10 条 指 
令 ， 每 次 都 必须 执行 。 
B. 用 来 实现 循环 闭合 的 跳 转 除了 当 循 环 中 止 时 之 外 ， 都 能 预测 正确 。 对 于 非常 长 的 数组 ， 这 个 预测 错 
误 对 性 能 的 影响 可 以 忽略 不 计 。 对 于 基于 跳 转 的 代码 ， 其 他 唯一 可 能 引起 气泡 的 源 取 决 于 数组 元 素 
是 否 为 正 的 条 件 转移 。 这 会 导致 两 个 气泡 ， 但 是 只 在 50% 的 时 间 里 会 出 现 ， 所 以 平均 值 是 1.0。 在 
条 件 传 送 代码 中 ， 没 有 气泡 。 
C. 我 们 的 条 件 转移 代码 对 于 每 个 元 素平 均 需 要 10.5+1.0=11.5 个 周期 (最 好 情况 要 11 个 周期 ， 最 差 情 
况 要 12 个 周期 )， 而 条 件 传送 代码 对 于 所 有 的 情况 都 需要 10.0 个 周期 。 
我 们 的 流水 线 的 分 支 预测 错误 处 罚 只 有 两 个 周期 一 一 远 比 对 性 能 更 高 的 处 理 器 中 很 深 的 流水 线 造 成 的 
处 罚 要 小 得 多 。 因 此 ， 使 用 条 件 传送 对 程序 性 能 的 影响 不 是 很 大 。 
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写 程序 最 主要 的 目标 就 是 使 它 在 所 有 可 能 的 情况 下 都 正确 工作 。 一 个 运行 得 很 快 但 是 给 出 错 
误 结 果 的 程序 没有 任何 用 处 。 程 序 员 必须 写 出 清晰 简洁 的 代码 ， 这 样 做 不 仅 是 为 了 程序 员 能 够 看 
履 代 码 ， 也 是 为 了 在 检查 代码 和 今后 需要 修改 代码 时 ， 其 他 人 能 够 读 懂 和 理解 代码 。 

另 一 方面 ， 在 很 多 情况 下 ， 让 程序 运行 得 快 也 是 一 个 重要 的 考虑 因素 。 如 果 一 个 程序 要 实时 
地 处 理 视频 帧 或 者 网 络 包 ， 一 个 运行 得 很 慢 的 程序 就 不 能 提供 所 需 的 功能 。 当 一 个 计算 任务 的 
计算 量 非常 大 ， 需 要 执行 数 日 或 者 数 周 ， 那 么 哪怕 只 是 让 它 运行 得 快 20% 也 会 产生 重大 的 影响 。 
本 章 会 探讨 如 何 使 用 几 种 不 同类 型 的 程序 优化 技术 ， 使 程序 运行 得 更 快 。 

编写 高 效 程 序 需要 几 类 活动 : 第 一 ， 我 们 必须 选择 一 组 合适 的 算法 和 数据 结构 。 第 二 ， 我 们 
必须 编写 出 编译 器 能 够 有 效 优化 以 转换 成 高 效 可 执行 代码 的 源 代码 。 对 于 第 二 点 ， 理 解 优化 编译 
器 的 能 力 和 局 限 性 是 很 重要 的 。 编 写 程 序 方式 中 看 上 去 只 是 一 点 小 小 的 变动 ， 都 会 引起 编译 器 优 
化 方式 很 大 的 变化 。 有 些 编程 语言 比 其 他 语言 容易 优化 得 多 。C 语言 的 有 些 特性 ， 例 如 执行 指针 
运算 和 强制 类 型 转换 的 能 力 ， 使 得 编译 器 很 难 对 它 进行 优化 。 程 序 员 经 常 能 够 以 一 种 使 编译 器 更 
容易 产生 高 效 代码 的 方式 来 编写 他 们 的 程序 。 第 三 项 技术 针对 处 理 运 算 量 特别 大 的 计算 ， 将 一 个 
任务 分 成 多 个 部 分 ， 这 些 部 分 可 以 在 多 核 和 多 处 理 器 的 某 种 组 合 上 并 行 地 计算 。 我 们 会 把 这 种 性 
能 改进 的 方法 推迟 到 第 12 章 去 讲 。 即 使 是 要 利用 并 行 性 ， 每 个 并 行 的 线程 都 以 最 高 性 能 执行 也 
是 非常 重要 的 ， 所 以 无 论 如 何 本 章 所 讲 的 内 容 也 还 是 相关 的 。 

在 程序 开发 和 优化 的 过 程 中 ， 我 们 必须 考虑 代码 使 用 的 方式 ， 以 及 影响 它 的 关键 因素 。 通 
常 ， 程 序 员 必 须 在 实现 和 维护 程序 的 简单 性 与 它 的 运行 速度 之 间 做 出 权衡 。 在 算法 级 上 ， 几 分 钟 
就 能 编写 一 个 简单 的 插入 排序 ， 而 一 个 高 效 的 排序 算法 程序 可 能 需要 一 天 或 更 长 的 时 间 来 实现 和 
优化 。 在 代码 级 上 ， 许 多 低级 别 的 优化 往往 会 降低 程序 的 可 读 性 和 模块 性 ， 使 得 程序 容易 出 错 ， 
并 且 更 难以 修改 或 扩展 。 对 于 在 性 能 重要 的 环境 中 反复 执行 的 代码 ， 进 行 广 泛 的 优化 比较 合适 。 
一 个 挑战 就 是 尽管 做 了 广泛 的 变化 ， 但 还 是 要 维护 代码 一 定 程度 的 简洁 和 可 读 性 。 

我 们 描述 许多 提高 代码 性 能 的 技术 。 理 想 的 情况 是 ， 编 译 器 能 够 接受 我 们 编写 的 任何 代码 ， 
并 产生 尽 可 能 高 效 的 、 具 有 指定 行为 的 机 器 级 程序 。 现 代 编 译 器 采用 了 复杂 的 分 析 和 优化 形式 ， 
而 且 变 得 越 来 越 好 。 然 而 ， 即 使 是 最 好 的 编译 器 也 受到 妨碍 优化 的 因素 (optimization blocker) 
的 阻碍 ， 妨 碍 优化 的 因素 就 是 程序 行为 中 那些 严重 依赖 于 执行 环境 的 方面 。 程 序 员 必须 编写 容易 
优化 的 代码 ， 以 帮助 编译 器 。 

程序 优化 的 第 一 步 就 是 消除 不 必要 的 内 容 ， 让 代码 尽 可 能 有 效 地 执行 它 期 望 的 工作 。 这 包括 
消除 不 必要 的 函数 调用 、 条 件 测试 和 存储 器 引用 。 这 些 优 化 不 依赖 于 目标 机 器 的 任何 具体 属性 。 

为 了 使 程序 性 能 最 大 化 ， 程 序 员 和 编译 器 都 需要 一 个 目标 机 器 的 模型 ， 指 明 如 何 处 理 指令 ， 
以 及 各 个 操作 的 时 序 特性 。 例 如 ， 编 译 器 必须 知道 时 序 信息 ， 才 能 够 确定 是 用 一 条 乘法 指令 ， 还 
是 用 移 位 和 加 法 的 某 种 组 合 。 现 代 计 算 机 用 复杂 的 技术 来 处 理 机 器 级 程序 ， 并 行 地 执行 许多 指 
令 ， 执 行 顺 序 还 可 能 不 同 于 它们 在 程序 中 出 现 的 顺序 。 程 序 员 必 须 理 解 这 些 处 理 器 是 如 何 工 作 
的 ， 从 而 调整 他 们 的 程序 以 获得 最 大 的 速度 。 基 于 Intel 和 AMD 处 理 器 最 近 的 设计 ， 我 们 提出 
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了 一 个 这 种 机 器 的 高 级 模型 。 我 们 还 设计 了 一 种 图 形 数据 流 〈data-flow) 表示 法 ， 可 以 使 处 理 器 
对 指令 的 执行 形象 化 ， 我 们 还 可 以 利用 它 预测 程序 的 性 能 。 

了 解 了 处 理 器 的 运作 ， 我 们 就 可 以 进行 程序 优化 的 第 二 步 ， 利 用 处 理 器 提供 的 指令 级 并 行 
(instruction-level parallelism 能 力 ， 同 时 执行 多 条 指令 。 我 们 会 讲述 几 个 对 程序 的 变化 ， 降 低 一 
个 计算 不 同 部 分 之 间 的 数据 相关 ， 增 加 并 行 度 ， 这 样 就 可 以 同时 执行 这 些 部 分 了 。 

我 们 以 对 优化 大 型 程序 的 问题 的 讨论 来 结束 这 一 章 。 我 们 描述 了 代码 剖析 程序 (profiler) 的 
使 用 ， 代 码 剖 析 程 序 是 测量 程序 各 个 部 分 性 能 的 工具 。 这 种 分 析 能 够 帮助 找到 代码 中 低 效 率 的 
地 方 ， 并 且 确 定 程序 中 应 该 着 重 优 化 的 部 分 。 最 后 ， 是 一 个 重要 的 观察 结论 称 为 Amdahl 定律 
(Amdahl's law)， 它 量化 了 对 系统 某 个 部 分 进行 优化 所 带 来 的 整体 效果 。 

在 本 章 的 摘 述 中 ， 我 们 使 代码 优化 看 起 来 像 按照 某 种 特殊 顺序 ， 对 代码 进行 一 系列 转换 的 简 
单线 性 过 程 。 实 际 上 ， 这 项 工作 远 非 这 么 简单 。 需 要 相当 多 的 试 错 法 试验 。 当 我 们 进行 到 后 面 的 
优化 阶段 时 ， 尤 其 是 这 样 ， 到 那 时 ， 看 上 去 很 小 的 变化 会 导致 性 能 上 很 大 的 变化 。 相 反 ， 一 些 看 
上 去 很 有 和 希望 的 技术 被 证 明 是 无 效 的 。 正 如 后 面 的 例子 中 会 看 到 的 那样 ， 要 确切 解释 为 什么 某 段 
代码 序列 有 某 个 延迟 ， 是 很 困难 的 。 性 能 可 能 依赖 于 处 理 器 设计 的 许多 详细 特性 ， 而 对 此 我 们 所 
知 其 少 。 这 也 是 我 们 尝试 各 种 技术 的 变形 和 组 合 的 另 一 个 原因 。 

研究 程序 的 汇编 代码 表示 ， 是 理解 编译 器 ， 以 及 产生 的 代码 如 何 运 行 的 最 有 效 的 手段 之 一 。 
仔细 研究 内 循环 的 代码 是 一 个 很 好 的 开端 ， 确 认 降 低 性 能 的 属性 ， 例 如 过 多 的 存储 器 引用 和 对 寄 
存 器 使 用 不 当 。 从 汇编 代码 开始 ， 还 可 以 预测 什么 操作 会 并 行 执行 ， 以 及 它们 会 如 何 使 用 处 理 器 
资源 。 正 如 我 们 会 看 到 的 ， 常 常 通过 确认 关键 路 径 〈critical path) 来 决定 执行 一 个 循环 所 需要 的 
时 间 (或 者 说 ， 至 少 是 一 个 时 间 下 界 )。 所 谓 关 键 路 径 是 在 循环 的 反复 执行 过 程 中 形成 的 数据 相 
关 链 。 然 后 ， 我 们 会 回 过 头 来 修改 源 代 码 ， 试 着 控制 编译 器 使 之 产生 更 有 效率 的 实现 。 

大 多 数 编译 器 ， 包 括 GCC， 一 直 都 在 更 新 和 改进 ， 特 别 是 在 优化 能 力 方面 。 一 个 很 有 用 的 
策略 是 只 重 写 程 序 到 编译 器 由 此 就 能 产生 有 效 代 码 所 需要 的 程度 就 好 了 。 这 样 ， 能 尽量 避免 损害 
代码 的 可 读 性 、 模 块 性 和 可 移植 性 ， 就 好 像 我 们 使 用 的 是 具有 最 低能 力 的 编译 器 。 同 样 地 ， 通 过 
测量 值 和 检查 生成 的 汇编 代码 ， 反 复 修 改 源 代码 和 分 析 它 的 性 能 是 很 有 帮助 的 。 

对 于 新 手 程 序 员 来 说 ， 不 断 修改 源 代码 ， 试 图 欺骗 编译 器 产生 有 效 的 代码 ， 看 起 来 很 奇怪 ， 
但 这 确实 是 编写 很 多 高 性 能 程序 的 方式 。 比 较 于 另 一 种 方法 一 一 用 汇编 语言 写 代 码 ， 这 种 间接 的 
方法 具有 的 优点 是 : 虽然 性 能 不 一 定 是 最 好 的 ， 但 得 到 的 代码 仍然 能 够 在 其 他 机 器 上 运行 。 


5.1 优化 编译 器 的 能 力 和 局 限 性 


现代 编译 器 运用 复杂 精细 的 算法 来 确定 一 个 程序 中 计算 的 是 什么 值 ， 以 及 它们 是 被 如 何 使 用 
的 。 然 后 它们 会 利用 一 些 机 会 来 简化 表达 式 ， 在 几 个 不 同 的 地 方 使 用 同一 个 计算 ， 以 及 降低 一 个 
给 定 的 计算 必须 被 执行 的 次 数 。 大 多 数 编译 器 ， 包 括 GCC， 向 用 户 提供 了 一 些 对 它们 所 使 用 的 
优化 的 控制 。 就 像 在 第 3 章 中 讨论 过 的 ， 最 简单 的 控制 就 是 制订 优化 级 别 。 例 如 ， 以 命令 行 标志 
“-01” 调用 GCC 是 让 GCC 使 用 一 组 基本 的 优化 。 在 网 络 旁 注 ASM:OPT 中 讨论 过 的 ， 以 标志 
-02” 或 “-03” 调用 GCC 会 让 它 使 用 更 全 面 的 优化 。 这 样 做 可 以 进一步 提高 程序 的 性 能 ， 但 
是 也 可 能 增加 程序 的 规模 ， 也 可 能 使 标准 的 调试 工具 更 难 对 程序 进行 调试 。 我 们 的 表述 ， 虽 然 对 
于 大 多 数 GCC 用 户 来 说 ， 优 化 级 别 2 已 经 成 为 了 被 接受 的 标准 ， 但 是 还 是 主要 考虑 以 优化 级 别 
1 编译 出 的 代码 。 我 们 特意 限制 了 优化 级 别 ， 以 展示 写 C 语言 函数 的 不 同方 法 如 何 影 响 编译 器 产 
生 代码 的 效率 。 我 们 会 发 现 可 以 写 出 的 C 代码 ， 即 使 用 优化 等 级 1 编译 得 到 的 性 能 ， 也 比 用 可 
能 的 更 高 优化 等 级 编译 一 个 更 初级 的 版 本 得 到 的 性 能 好 。 

编译 器 必须 很 小 心地 对 程序 只 使 用 安全 的 优化 ， 也 就 是 说 对 于 程序 可 能 遇 到 的 所 有 可 能 的 情 
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况 ， 在 C 语 言 标准 提供 的 保证 之 下 ， 优 化 后 得 到 的 程序 和 未 优化 的 版 本 有 一 样 的 行为 。 限 制 编 
译 器 只 进行 安全 的 优化 ， 消 除了 一 些 造 成 不 希望 的 运行 时 行为 的 可 能 原因 ， 但 是 这 也 意味 着 程序 
员 必 须 花 费 更 大 的 力气 写 出 程序 使 编译 器 能 够 将 之 转换 成 有 效 机 器 代码 。 为 了 理解 决定 一 种 程序 
转换 是 否 安全 的 难度 ， 让 我 们 来 看 看 下 面 这 两 个 过 程 : 


1 void twiddlei(int *xp, int *yp) 


? 区 

3 *xp 十 = *yp; 

+ *xp 十 = *yp; 

5s 3 

0 

7 void twiddle2(int *xp, int *yp) 
s 1 

0 *Xp += 2* *yp; 

10 3} 


看 一 看 ， 这 两 个 过 程 似乎 有 相同 的 行为 。 它 们 都 是 将 存储 在 由 指针 yp 指示 的 位 置 处 的 值 两 
次 加 到 指针 xp 2 另 一 方面 ， 函 数 twiddle2 效率 更 高 一 些 。 它 只 要 求 3 次 存 
储 器 引用 〈 谈 *xPp， 谈 *yp， 写 *xp)， 而 twiddlel 需要 6 次 (2 次 读 *xp，2 次 读 。 YyPp，2 次 . 
写 *xp)。 因 此 ， 如 果 要 编译 器 编译 过 程 twiddle1l1， 我 们 会 认为 基于 twiddle2 执行 的 计算 能 
产生 更 有 效 的 代码 。 

不 过 ， 考 虑 xp 等 于 yp 的 情况 。 此 时 ， 函 数 twiddlel 会 执行 下 面 的 计算 : 


2 *xXp += *xp; /* Double value at xp */ 
4 *xp += *xp; /* Double value at xp */ 


结果 是 xp 的 值 会 增加 4 倍 。 男 一 方面 ， 消 数 twiddle2 会 执行 下 面 的 计算 : 


*Xp += 2* *xp; /* Triple value at XP */ 


结果 是 xp 的 值 会 增加 3 倍 。 编 译 器 不 知道 twiddlel 会 如 何 被 调用 ， 因 此 它 必须 假设 参数 xp 
和 yp 可 能 会 相等 。 因 此 ， 它 不 能 产生 twiddle2 风格 的 代码 作为 twiddlel 的 优化 版 本 。 

这 种 两 个 指针 可 能 指 问 同一 个 存储 器 位 置 的 情况 称 为 存储 器 别名 使 用 (memory aliasing )。 
在 只 执行 安全 的 优化 中 ， 编 译 器 必须 假设 不 同 的 指针 可 能 会 指 回 存 储 器 中 同一 个 位 置 。 再 看 一 个 
例子 ， 对 于 一 个 使 用 指针 变量 p 和 q 的 程序 ， 考 虑 下 面 的 代码 序列 : 

x = 1000; y = 3000;) 

*q = y; /* 3000 */ 

*p = XxX; /* 1000 */ 

ti = *q; /* 1000 or 3000 */ 


tl 的 计算 值 依赖 于 指针 p 和 qa 是 否 指 向 存储 器 中 同一 个 位 置 一 一 如 果 不 是 ，t1 就 等 于 
3000， 但 如 果 是 ，t1 就 等 于 1000。 这 造成 了 一 个 主要 的 妨碍 优化 的 因素 ， 这 也 是 可 能 严重 限制 
编译 器 产生 优化 代码 机 会 的 程序 的 一 个 方面 。 如 果 编 译 器 不 能 确定 两 个 指针 是 否 指向 同一 个 位 
置 ， 就 必须 假设 什么 情况 都 有 可 能 ， 限 制 了 可 能 的 优化 策略 。 
| 练习 题 5.1 下 面 的 问题 说 明了 存储 器 别名 使 用 ， 可 能 会 导致 意 想不到 的 程序 行为 的 方式 。 考 虑 下 面 

这 个 交换 两 个 值 的 过 程 : 


1 /+ Swap value x at xp vith value y at yp */ 
2 void swap(int *xp, int *yp) 


3 { 
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*Xp = *Xp + *yp; 水 党 二 汪 水 7 
4 *yp = *xp 一 *yp; /十 YY = %* ~ 
6 *XPp 二 *XPp 一 *yPp ; 7 六 XtYy ~v 多 水 7 


> 
如 果 调 用 这 个 过 程 时 xp 等 于 yp， 会 有 什么 样 的 效果 ? 
第 二 个 妨碍 优化 的 因素 是 函数 调用 。 作 为 一 个 示例 ， 考 虑 下 面 这 两 个 过 程 : 


int f(); 


| 

3 int funci() { 
4 return f() + f() + f() + f(); 
5 


int func2() { 
& return 4*f(); 
9 } 


最 初 看 上 去 两 个 过 程 计 算 的 都 是 相同 的 结果 ， 但 是 func2 只 调用 fl 次 ， 而 funcl 调用 £4 
次 。 以 funcl 作为 源 时 ， 会 很 想 产 生 func2 风格 的 代码 。 

不 过 ， 考 虑 下 面 f 的 代码 : 

1 int counter = 0; 
2 
3 int f() { 
4 return countert+; 
有, | 


} 

这 个 函数 有 个 副作用 一 一 它 修改 了 全 局 程序 状态 的 一 部 分 。 改 变调 用 它 的 次 数 会 改变 
程序 的 行为 。 特 别 地 ， 假 设 开 始 时 全 局 变量 counter 都 设置 为 0， 对 funcl 的 调用 会 返回 
“0+1+2+3=6， 而 对 func2 的 调用 会 返回 4 . 0=0。 

大 多 数 编译 器 不 会 试图 判断 一 个 函数 是 否 没有 副作用 ， 因 此 任意 函数 都 可 能 是 优化 的 候选 
者 ， 例 如 func2 中 的 做 法 。 相 反 ， 编 译 器 会 假设 最 糟 的 情况 ， 并 保持 所 有 的 函数 调用 不 变 。 


用 内 联 函 数 蔡 换 优化 函数 调用 

如 网 络 劣 注 ASM:OPT 描述 的 ， 包 钨 函数 调用 的 代码 可 以 用 一 个 称 为 内 联 函 数 替 换 〈inline 
substitution， 或 者 简称 “内 联 ”(inlining)) 的 过 程 进行 优化 ， 此 时 ， 将 函数 调用 替换 为 函数 体 。 
例如 ， 我 们 可 以 通过 替换 掉 对 函数 工 的 4 次 调用 ， 展 开 funcl 的 代码 : 


1 /* Result of inlining f in funcl */ 
2 int funciin() { 

3 int t = countert+; /* +O */ 

4 t += counter++; /* +1 */ 

5 t += counter++; /* +2 */ 

6 t += Counter++; /* +3 */ 

7 return t; 

8 


这 样 的 转换 有 既 减 少 了 函数 调用 的 开销 ， 也 允许 对 展开 的 代码 做 进一步 优化 。 人 例如， 编译 器 可 
以 统一 funclin 中 对 全 局 变量 counter 的 更 新 ， 产 生 这 个 函数 的 一 个 优化 版 本 : 


1 /* Dptimization of inlined code */ 
2 int funclopt() { 

2 int t= 4 * counter + 6; 

4 counter = t + 4; 
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5 return t; 


6 } 


对 于 这 个 特定 的 函数 f£ 的 定义 ， 上 述 代 码 忠 实地 重 现 了 funcl 的 行为 。 

GCC 的 最 近 版 本 会 尝试 进行 这 种 形式 的 优化 ， 要 么 是 被 用 命令 行 选项 “-finline” 指 示 时 ， 
要 么 是 使 用 优化 等 级 2 或 者 更 高 的 等 级 时 。 由 于 在 我 们 的 描述 中 只 考虑 优化 等 级 1， 所 以 我 们 假 
” 设 编 译 器 不 会 执行 内 联 函 数 替 换 。 


在 各 种 编译 器 中 ， 就 优化 能 力 来 说 ，GCC 被 认为 是 胜任 的 ， 但 是 并 不 是 特别 突出 。 它 完 
基本 的 优化 ， 但 是 它 不 会 对 程序 进行 更 加 “有 进取 心 的 ”编译 器 所 做 的 那 种 激进 变换 。 因 此 ， 
使 用 GCC 的 程序 员 必 须 花 费 更 多 的 精力 ， 以 一 种 简化 编译 器 生成 高 效 代码 的 任务 的 方式 来 纺 
写 程 序 。 


5.2 表示 程序 性 能 


我 们 引入 度量 标准 每 元 素 的 周期 数 〈Cycles Per Element，CPE)， 作 为 一 种 表示 程序 性 能 并 
指导 我 们 改进 代码 的 方法 。CPE 这 种 度量 标准 帮助 我 们 在 更 详细 的 级 别 上 理解 迭代 程序 的 循环 
性 能 。 这 样 的 度量 标准 对 执行 重复 计算 的 程序 来 说 是 很 适当 的 ， 例 如 处 理 图 像 中 的 像素 ， 或 是 计 
算 和 矩阵 乘 积 中 的 元 素 。 

处 理 器 活动 的 顺序 是 由 时 钟 控制 的 ， 时 钟 提供 了 菜 个 频率 的 规律 信号 ， 通 常用 午 光 赫 
兹 《GHz)， 即 十 亿 周 期 每 秒 来 表示 。 例 如 ， 当 表明 一 个 系统 有 “4 GHz” 处 理 器 ， 这 表示 处 理 
器 时 钟 运行 频率 为 4X10 千 光 赫兹。 每 个 时 钟 周期 的 时 间 是 时 钟 频 率 的 倒数 。 通 常 是 用 纳 秒 
(nanosecond，1 纳 秒 等 于 10“ 秒 ) 或 皮 秒 (picosecond，1 皮 秒 等 于 10 一 秒 ) 来 表示 的 。 例 如 ， 
一 个 4 GHz 的 时 钟 其 周期 为 0.25 纳 秒 ， 或 者 说 250 皮 秒 。 从 程序 员 的 角度 来 看 ， 用 时 钟 周期 来 
的 纳 秒 或 皮 秒 来 表示 有 帮助 得 多 。 用 时 钟 周 期 来 表示 ， 度量 值 表示 的 是 执行 了 
多 少 条 指令 ， 而 不 是 时 钟 运行 得 有 多 快 。 

许多 过 程 含有 在 一 组 元 素 上 适 代 的 循环 。 人 例如， 图 5-1 中 的 函数 psuml 和 psum2 计算 
的 都 是 一 个 长 度 为 n 的 向 量 的 前 置 和 (prefix sum)。 对 于 向 量 4 = (4o, ol, .…., 4an_1)， 前 置 和 
P=(po, pl..., pn-1) 定 义 为 

Po do 
pFpiita;, ll <i<n (S$-1) 
函数 psuml 每 次 迭代 计算 结果 疝 量 的 一 个 元 素 。 第 二 个 函数 使 用 循环 展开 (loop unrolling) 
的 技术 ， 每 次 迭代 计算 两 个 元 素 。 本 章 的 后 面 我 们 会 探讨 循环 展开 的 好 处 。 关 于 分 析 和 优化 前 置 
和 计算 的 内 容 请 参见 练习 题 5.11、5.12 和 家 庭 作业 5.21。 

这 样 一 个 过 程 所 需要 的 时 间 可 以 用 一 个 常数 加 上 一 个 与 被 处 理 元 素 个 数 成 正比 的 因子 来 描 

。 例 如 ， 图 5-2 是 这 两 个 函数 需要 的 周期 数 关 于 n 的 取 值 范围 图 。 使 用 最 小 二 磁 方 拟 合 《least 
squares fit)， 我 们 发 现 ，psuml 和 psum2 的 运行 时 间 (用 时 钟 周期 为 单位 分 别 近 似 于 等 式 
496+10.0n 和 500+6.5n。 这 两 个 等 式 表 明 对 代码 计时 和 初始 化 过 程 、 准 备 循 环 以 及 完成 过 程 的 开 
销 为 496 ~ 500 个 周期 加 上 每 个 元 素 6.5 或 10.0 周期 的 线性 因子 。 对 于 较 大 的 n 值 (比如 说 大 于 
200)， 运 行 时 间 就 会 主要 由 线性 因子 来 决定 。 这 些 项 中 的 系数 称 为 每 元 素 的 周期 数 (CPE) 的 有 
效 数 。 注 意 ， 我 们 更 愿意 用 每 个 元 素 的 周期 数 而 不 是 每 次 循环 的 周期 数 来 度量 ， 这 是 因为 像 循 环 
展开 这 样 的 技术 使 得 我 们 能 够 用 较 少 的 循环 完成 计算 ， 而 我 们 最 终 关 心 的 是 ， 对 于 给 定 的 向 量 长 
度 ， 程 序 运行 的 速度 如 何 。 我 们 将 精力 集中 在 减 小 计算 的 CPE 上。 根据 这 种 度量 标准 ，psum2 
的 CPE 为 6.5， 优 于 CPE 为 10.0 的 psuml。 


荔 和 和 竟 优化 娠 序 性 能 329 


/* Compute prefix sum of vector a */ 
void psumi(float a[] float p[], long int n) 
{ 

long int i,; 

p[o] = a[0] ; 

for (i = 1; i < n; i++) 

p[i] = pl[li-1] + a[i] ; 

} 


void psum2(float a[], float p[], long int D) 
{ 


long int i; 

p[L0] = a[0] ; 

for (i = 1; i < n-1i; i+=2) { 
float mid_val = p[i-1] + a[il]; 
P [ij = mid_val; 
p[li+i] = mid_val + a[i+1]; 


} 
/* For odd n, finish remaining element */ 
if (i < Da) 

p[li] = p[i-1] + a[i]; 


: psuml 
Slope=10.0 7 


"psum2 
Slope = 6.5 





0 50 100 150 200 


元 素 
图 5-2 前 置 和 也 数 的 性 能 。 两 条 线 的 斜率 表明 每 元 素 的 周期 数 (CPE) 
“什么 是 最 小 二 乘 方 拟 合 


对 于 一 个 数据 点 (Xs y1), “°°y (xc ， yn) 的 集合 ， 我 们 常常 试图 画 一 条 线 ， 它 能 最 接近 于 这 些 
数据 代表 的 XX-Y 趋势 。 使 用 最 小 二 来 方 拟 合 ， 寻 找 一 条 形 如 y = mx + bb 的 线 ， 使 得 下 面 这 个 误 
差 度 量 最 小 : 


E(m,b)= 》 (mxi+b— yi) 


1 一 1.7 


将 E(m，b) 分 别 对 m 和 4b 求 导 ， 把 两 个 导数 涵 数 设置 为 0， 进行 推导 就 能 得 出 计算 m 和 上 的 算法 。 
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强 练习 题 5.2 在 本 章 后 面 ， 我 们 会 从 一 个 函数 开始 ， 生 成 许多 不 同 的 变种 ， 这 些 变种 保持 函数 的 行为 ， 
又 具有 不 同 的 性 能 特性 。 对 于 其 中 三 个 变种 ， 我 们 发 现 运行 时 间 (以 时 名 周期 为 单位 》 可 以 用 下 面 的 
函数 近似 地 估计 : 





版 本 1: 60 十 35Sm 
版 本 2: 136 十 47 
版 本 3: 157 十 1.2Sm 


每 个 版 本 在 n 取 什 么 值 时 是 三 个 版 本 中 最 快 的 ? 记 住 ，n 总 是 整数 。 


5.3 ”程序 示例 


“为 了 说 明 一 个 抽象 的 程序 是 如 何 被 系统 地 转换 成 更 有 效 的 代码 的 ， 考 虑 图 5-3 所 示 的 简单 向 
量 数据 结构 。 向 量 由 两 个 存储 器 块 表示 : 头 部 和 数据 数组 。 头 部 是 一 个 声明 如 下 的 结构 : 


code/opt/vec.h 
1  /* Create abstract data type for Vector */ 
2 typedef struct { 
3 long int len; 
4 data_t *data; 
5 } vec_rec, *vec_ptr; 
code/opt/vec.h 






len 一 
图 5-3 ”向量 的 抽象 数据 类 型 。 向 量 由 头 信息 加 上 指定 长 度 的 数组 来 表示 
这 个 声明 用 数据 类 型 data_t 作为 基本 元 素 的 数据 类 型 。 在 我 们 的 评价 中 ， 度 量 代 码 对 于 
整数 〈C 语言 的 int)、 单 精度 浮 点 数 〈C 语言 的 float) 和 双 精 度 浮 点 数 〈C 语言 的 double) 
数据 的 性 能 。 为 此 ， 我 们 会 分 别 为 不 同 的 类 型 声明 编译 和 运行 程序 ， 就 像 下 面 这 个 例子 对 数据 类 
型 int 一 样 : 


typedef int data tt; 


我 们 还 会 分 配 一 个 len 个 aata 上 类 型 对 象 的 数组 ， 来 存放 实际 的 向 量 元 素 。 

图 5-4 给 出 的 是 一 些 生成 向 量 、 访 问 向 量 元 素 以 及 确定 向 量 长 度 的 基本 过 程 。 一 个 值得 注意 
的 重要 特性 是 get_vec_element， 向 量 访问 程序 ， 它 会 对 每 个 向 量 引 用 进行 边界 检查 。 这 段 
代码 类 似 于 许多 其 他 语言 (包括 Java) 所 使 用 的 数组 表示 法 。 边 界 检查 降低 了 程序 出 铺 的 概率 ， 
但 是 它 也 会 减缓 程序 的 执行 。 

作为 一 个 优化 示例 ， 考 虑 图 5-5 中 所 示 的 代码 ， 它 根据 某 种 运算 ， 将 一 个 向 量 中 所 有 的 元 素 
合并 成 一 个 值 。 通 过 使 用 编译 时 常数 IDENT 和 OP 的 不 同 定 义 ， 这 段 代码 可 以 重 编译 成 对 数据 
执行 不 同 的 运算 。 特 别 地 ， 使 用 声明 : 


#define IDENT 0 .| 
#define OP + 


它 对 向 量 的 元 素 求 和 和。 使 用 声明 : 





#define IDENT 1 
#define OP * 
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code/opt/vec.c 


/* Create vector of specified length */ 


1 

2 vec_ptr new_vec(long int len) 

3 

4 /* Allocate header structure */ 

5 vec_ptr result = (vec_ptr) malloc(sizeof (vec_rec)); 
6 if (!result) 

7 return NULL; /* Couldn't allocate storage */ 

8 result->len = len; 

9 /* fllocate array */ 

10 if (len > 0) { 

11 data_t *data = (data_t *)calloc(len, sizeof (data._t)); 
12 if (idata) { 

13 free((void *) result); 

14 return NULL; /x Couldn't allocate storage */ 
15 } 

16 result->data = data,; 

17 } 

18 else 

19 result->data = NULL ; 

20 return result; 

21 

22 

23 /x* 

24 * Retrieve vector element and store at dest. 

25 + Return 0 (out of bounds) or 1 (successful) 

26 */ 

27 int get_vec_element (vec_ptr v, long int index, data_t *dest) 
28  { 

29 if (index < 0 || index >= v->len) 

30 return 0; 

31 *dest = V->data[index] ; 

32 return 1; 

33 

34 


35  /* Return length of Vector */ 
36 long :int vec_length(vec_ptr v) 


37 { 
38 return Vv->len; 
39 } 


code/opl/vec.c 
5-4 向 量 抽象 数据 类 型 的 实现 。 在 实际 程序 中 ， 数 据 类 型 data_t 被 声明 为 ijnt、float 或 double 






/* Implementation with maximum use of data abstraction */ 










} 

2 void combinei(vec_ptr v, data_t *dest) 

3 访 

4 long int i; 

5 

6 *dest = IDENT,; 

7 for (i = 0; i < vec_length(v); i++) { 
8 data_t val; 

9 get_vec_element(v, i, &val); 

10 *dest = *dest OP val; ， 





图 5-5 合并 运算 的 初始 实现 。 使 用 标识 元 素 IDENT 和 合并 运算 OP 的 不 同 声明 ， 我 们 可 以 测量 
该 函数 对 不 同 运算 的 性 能 
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它 计 算 的 是 回 量 元 素 的 乘积 。 

在 我 们 的 讲述 中 ， 会 对 这 段 代码 进行 一 系列 的 变化 ， 写 出 这 个 合并 函数 的 不 同 版 本 。 为 了 衡 
量 进 步 ， 我 们 会 在 一 个 拥有 Intel Core i7 处 理 器 的 机 器 上 测量 这 些 函 数 的 CPE 性 能 ， 这 个 机 器 称 
为 参考 机 。3.1 节 中 给 出 了 一 些 有 关 这 个 处 理 器 的 特性 。 这 些 测量 值 刻画 的 是 程序 在 某 个 特定 的 
机 器 上 的 性 能 ， 所 以 在 其 他 机 器 和 编译 器 组 合 上 不 保证 有 同等 的 性 能 。 不 过 ， 我 们 把 这 些 结果 与 
许多 不 同 编译 器 / 处 理 器 组 合 上 的 结果 做 了 比较 ， 发 现 也 非常 相似 。 

我 们 会 进行 一 组 变换 ， 发 现 有 很 多 只 能 带 来 很 小 的 性 能 提高 ， 而 其 他 的 能 带 来 更 巨大 的 效 
果 。 确 定 该 使 用 哪些 变换 的 组 合 确实 是 编写 快速 代码 的 “魔术 ”(black art)。 有 些 不 能 提供 可 测 
量 的 好 处 的 组 合 确实 是 无 效 的 ， 然 而 有 些 组 合 是 很 重要 的 ， 它 们 使 编译 器 能 够 进一步 优化 。 根 据 
我 们 的 经 验 ， 最 好 的 方法 是 实验 加 上 分 析 : 反复 地 尝试 不 同 的 方法 ， 进 行 测量 ， 并 检查 汇编 代码 
表示 以 确定 底层 的 性 能 瓶颈 。 

作为 一 个 起 点 ， 下 面 是 combinel 的 CPE 度量 值 ， 它 运行 在 我 们 的 参考 机 上 ， 尝 试 了 数据 
类 型 和 合并 运算 的 所 有 组 合 。 对 于 单 精度 和 双 精 度 浮 点 数据 ， 在 参考 机 上 的 实验 表明 对 于 加 法 ， 
它们 的 性 能 相同 ， 但 是 对 于 乘法 ， 性 能 不 同 。 因 此 ， 报 告 五 个 CPE 值 : 整数 加 法 和 乘法 、 浮 点 
加 法 、 单 精度 乘法 (标号 为 “F*”) 和 双 精 度 乘法 (标号 为 “D*”)。 













浮 点 数 
抽象 的 未 优化 的 20.02 29.21 27.40 27.90 27.36 





可 以 看 到 测量 值 有 些 不 太 精 确 。 对 于 整数 求 和 ， 以 及 乘积 的 CPE 数 更 像 是 29.00， 而 
不 是 29.02 或 29.21。 我 们 不 会 “捏造 ”数据 让 它们 看 起 来 好 看 一 点 儿 ， 只 是 给 出 了 实际 获 
得 的 测量 值 。 有 很 多 因素 会 使 得 可 靠 地 测量 某 段 代码 序列 需要 的 精确 周期 数 这 个 任务 变 得 
复杂 。 检 查 这 些 数字 时 ， 在 头脑 里 把 结果 向 上 或 者 向 下 取 整 几 百 分 之 一 个 时 钟 周期 会 很 有 
帮助 。 

未 经 优化 的 代码 是 从 C 语言 代码 到 机 器 代码 的 直接 翻译 ， 通 常 有 明显 的 低 效率 。 简 单 
地 使 用 命令 行 选项 “-01”， 就 会 进行 一 些 基本 的 优化 。 正 如 可 以 看 到 的 ， 程 序 员 不 需要 
做 什么 ， 就 会 显著 地 提高 程序 性 能 一 一 超过 两 个 数量 级 。 通 常 ， 养 成 至 少 使 用 这 个 级 别 
优化 的 习惯 是 很 好 的 。 剩 下 的 测试 ， 使 用 级 别 1 和 更 高 级 别 的 优化 来 生成 和 测量 我 们 的 
程序 。 


5.4 ”消除 循环 的 低 效率 

可 以 观察 到 ， 过 程 combinel 调用 函数 vec_length 作为 for 循环 的 测试 条 件 ， 如 图 5-5 
所 示 。 回 想 关 于 如 何 将 含有 循环 的 代码 翻译 成 机 器 级 程序 的 讨论 〈 见 3.6.5 市 )， 每 次 循环 秋 代 时 
都 必须 对 测试 条 件 求 值 。 另 一 方面 ， 向 量 的 长 度 并 不 会 随 着 循环 的 进行 而 改变 。 因 此 ， 只 需 计算 
一 次 向 量 的 长 度 ， 然 后 在 我 们 的 测试 条 件 中 都 使 用 这 个 值 。 

图 5-6 是 一 个 修改 了 的 版 本 ， 称 为 combine2， 它 在 开始 时 调用 vec_length， 并 将 结果 
赋值 给 局 部 变量 length。 对 于 某 些 数据 类 型 和 操作 ， 这 个 变换 明显 地 影响 了 程序 性 能 ， 对 于 其 
他 的 情况 ， 只 有 很 小 甚至 没有 影响 。 无 论 是 哪 种 情况 ， 都 需要 这 种 变换 来 消除 这 个 低 效率 ， 这 有 
可 能 成 为 尝试 进一步 优化 时 的 瓶颈 。 
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/* Move call to Vec_length out o£ loop */ 
void combine2(vec_ptr v, data_t *dest) 
{ 

long int i; 

long int length = vec._length(v); 


*dest = IDENT; 

for (i = 0; i < length; i++) { 
data._t val; 
get_vec_element(v, i, &val); 
*dest = *dest OP val; 


] 

2 
3 
4 
9 
6 
7 
8 
€ 


} 
} 





图 5-6 ”改进 循环 测试 的 效率 。 通 过 把 对 vec_length 的 调用 移出 循环 测试 ， 我 们 不 再 需要 每 次 
迄 代 时 都 执行 这 个 函数 















| 


这 个 优化 是 一 类 常见 的 优化 的 一 个 例子 ， 称 为 代码 移动 〈code motion)。 这 类 优化 包括 识别 
要 执行 多 次 (例如 在 循环 里 ) 但 是 计算 结果 不 会 改变 的 计算 。 因 而 可 以 将 计算 移动 到 代码 前 面 不 
会 被 多 次 求 值 的 部 分 。 在 本 例 中 ， 我 们 将 对 vec_length 的 调用 从 循环 内 部 移动 到 循环 的 前 面 。 

优化 编译 器 会 试 着 进行 代码 移动 。 不 幸 的 是 ， 就 像 前 面 讨 论 过 的 那样 ， 对 于 会 改变 在 哪里 调 
用 函数 或 调用 多 少 次 的 变换 ， 编 译 器 通常 会 非常 小 心 。 它 们 不 能 可 靠 地 发 现 一 个 函数 是 否 会 有 副 
作用 ， 因 而 假设 函数 会 有 副作用 。 例 如 ， 如 果 vec_length 有 某 种 副作用 ， 那 么 combinel 和 
combine2 可 能 就 会 有 不 同 的 行为 。 为 了 改进 代码 ， 程 序 员 必须 经 常 帮 助 编译 器 显 式 地 完成 代 
码 的 移动 。 

举 一 个 combinel 中 看 到 的 循环 低 效率 的 极端 例子 ， 考 虑 图 5-7 中 所 示 的 过 程 ower1l1。 这 
个 过 程 模仿 几 个 学 生 的 函数 设计 ， 他 们 的 函数 是 作为 一 个 网 络 编程 项 目的 一 部 分 交 上 来 的 。 这 个 
过 程 的 目的 是 将 一 个 字符 串 中 所 有 大 写字 母 转 换 成 小 写字 母 。 这 个 大 小 写 转换 是 将 “A” 到 “Zz 
范围 内 的 字符 转换 成 “a” 到 “z” 范 围 内 的 字符 。 

对 库 函 数 strlen 的 调用 是 lowerl 循环 测试 的 一 部 分 。 虽 然 strlen 通常 是 用 特殊 的 
x86 字符 串 处 理 指令 来 实现 的 ， 但 是 它 的 整体 执行 也 类 似 于 图 5-7 中 给 出 的 这 个 简单 版 本 。 因 为 
C 语言 中 的 字符 串 是 以 null 结尾 的 字符 序列 ，strlen 必须 一 步 一 步 地 检查 这 个 序列 ， 直 到 遇 
到 null 字符 。 对 于 一 个 长 度 为 n 的 字符 早 ，strlen 所 用 的 时 间 与 成 正比 。 因 为 对 lower1 
的 nn 次 从 代 的 每 一 次 都 会 调用 strlen， 所 以 lowerl 的 整体 运行 时 间 是 字符 串 长 度 的 二 次 项 ， 
EE 

如 图 5-8 所 示 〈 使 用 strlen 的 库 版 本 )， 这 个 函数 对 各 种 长 度 的 字符 串 的 实际 测量 值 证 实 
了 上 述 分 析 。lowerl 的 运行 时 间 曲 线 图 随 着 字符 串 长 度 的 增加 上 升 得 很 陡峭 〈 图 5-8a)。 图 5-8b 
展示 了 7 个 不 同 长 度 字 符 串 的 运行 时 间 “〈 与 曲线 图 中 所 示 的 有 所 不 同 )， 每 个 长 度 都 是 2 的 客 数 。 
可 以 观察 到 ， 对 于 LIower1 来 说 ， 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 都 会 变 为 原来 的 4 倍 。 这 
很 明显 地 表明 运行 时 间 是 二 次 的 。 对 于 一 个 长 度 为 1 048 576 的 字符 串 来 说 ，lLower1 需要 超过 
13 分 钟 的 CPU 时 间 。 
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/* Convert string to lowercase: slow */ 
void loweri(char *s) 
{ 


int i; 


for (i = 0; i < strlen(s); i++) 
if (ski] >= 'A' && s[i] <= '2Z') 
s[i] -= ('A' - 'a'); 


} 


/* Convert string to lowercase: faster */ 
void lower2(char *s) 
{ 

int i; 

int len = strlen(s); 


for (i = 0; i < len; i++) 
if (s[i] >= 'A' && s[i] <= '2') 
s[i] -= ('A' ~- 'a'); 
} . 


/* Sample implementation of library function strlen */ 
/* Compute length of string */ 
size_t strlen(const char *s) 
{ 
int length = 0; 
While (*s != '\0') { 
S++ ; 
length++; 
, 
return length; 





图 5-7 ”小 写字 母 转换 函数 。 两 个 过 程 的 性 能 差别 很 大 


除了 把 对 strlen 的 调用 移出 了 循环 以 外 ， 图 5-7 中 所 示 的 lower2 与 lower1 是 一 样 的 。 
这 样 一 来 ， 性 能 有 了 显著 改善 。 对 于 一 个 长 度 为 1 048 576 的 字符 早 ， 这 个 孙 数 只 需要 1.5 毫 
秒 一 一 比 lower1l 快 了 500 000 多 倍 。 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 也 会 增加 一 倍 一 一 很 显 
然 运 行 时 间 是 线性 的 。 对 于 更 长 的 字符 串 ， 运 行 时 间 的 改进 会 更 大 。 

在 理想 的 世界 里 ， 编 译 器 会 认 出 循环 测试 中 对 strlen 的 每 次 调用 都 会 返回 相同 的 结果 ， 
因此 应 该 能 够 把 这 个 调用 移出 循环 。 这 需要 非常 成 熟 完善 的 分 析 ， 因 为 strlen 会 检查 字符 串 
的 元 素 ， 而 随 着 lower1 的 进行 ， 这 些 值 会 改变 。 编 译 器 需要 探查 ， 即 使 字符 串 中 的 字符 发 生 
了 改变 ， 但 是 没有 字符 会 从 非 零 变 为 零 ， 或 是 反 过 来 ， 从 零 变 为 非 零 。 即 使 是 使 用 内 联 消 数 ， 这 
样 的 分 析 也 远 远 超出 了 最 成 熟 完 善 的 编译 器 的 能 力 ， 所 以 程序 员 必 须 目 己 进行 这 样 的 变换 。 

这 个 示例 说 明了 编程 时 一 个 常见 的 问题 ， 一 个 看 上 去 无 足 轻重 的 代码 片断 有 隐藏 的 渐 近 低 效 
率 (asymptotic inefficiency)。 人 们 可 不 希望 一 个 小 写字 母 转换 函数 成 为 程序 性 能 的 限制 因素 。 通 
常 ， 会 在 小 数据 集 上 测试 和 分 析 程 序 ， 对 此 ，1lower1 的 性 能 是 足够 的 。 不 过 ， 当 程序 最 终 部 署 
好 以 后 ， 过 程 完 全 可 能 被 应 用 到 一 个 有 100 万 个 字符 的 串 上 。 突 然 ， 这 段 无 危险 的 代码 变 成 了 一 
个 主要 的 性 能 瓶颈 。 相 比较 而 言 ，1owez2 的 性 能 对 于 任意 长 度 的 字符 串 来 说 都 是 足够 的 。 大 型 
编程 项 目 中 出 现 这 样 问题 的 故事 比比 缘 是 。 一 个 有 经 验 的 程序 员工 作 的 一 部 分 就 是 避免 引入 这 样 
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的 渐 近 低 效 率 。 


CPU 秘 





1 048 376 - 


791.22 
0.0015 


16 384 32.768 65 536 131 072 262 144 524 288 


0.19 0.77 3.08 12.34 49.39 198.42 


0.0004 0.0008 





0.0000 ”0.0000 0.0001 0.0002 


b) 
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图 5-8 ”小 写字 母 转换 函数 的 性 能 比较 。 由 于 循环 结构 的 效率 比较 低 ， 初 始 代码 lower1 的 运行 时 间 是 2 


次 项 的 。 修 改过 的 代码 lower2 的 运行 时 间 是 线性 的 


弹 练习 题 5.3 ”考虑 下 面 的 函数 ， 





int min(int x, int y) { return x <y?x:y;} 
int max(int x, int y) { return x <y?y: x;} 
void incr(int *xp, int v) { *xp += v; } 

int square(int x) { return x*x; } 


下 面 三 个 代码 片断 调用 这 些 函 数 : 
A. for (i = min(x, y); i < max(x, y); incr(&i, 1)) 


t += square(i); 


max(x, y) - 1; i >= min(x, y); incr(&i, -1)) 


B for (i = 
t += Square(i) ; 
记 int low = min(x, y); 


int high = max(x, y); 


for (i = low; i < high;. incr(&i， 1)) 
t += square(i); 





假设 x 等 于 10, 而 y 等 于 100。 填 写 下 表 ， 指 出 在 代码 片断 A 一 C 中 4 个 函数 每 个 被 调用 的 
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5.5 减少 过 程 调用 


像 我 们 看 到 的 那样 ， 过 程 调用 会 带 来 相当 大 的 开销 ， 而 且 妨 碍 大 多 数 形 式 的 程序 优化 。 从 
combine2 的 代码 〈 见 图 5-6〉 中 可 以 看 出 ， 每 次 循环 迭代 都 会 调用 get_vec_element 来 获 
取 下 一 个 向 量 元 素 。 对 每 个 向 量 引 用 ， 这 个 函数 要 把 向 量 索 引 i 与 循环 边界 做 比较 ， 很 明显 会 
造成 低 效率 。 在 处 理 任意 的 数组 访问 时 ， 边 界 检查 可 能 是 个 很 有 用 的 特性 ， 但 是 对 combine2 
代码 的 简单 分 析 表 明 所 有 的 引用 都 是 合法 的 。 

作为 替代 ， 假 设 为 我 们 的 抽象 数据 类 型 增加 一 个 函数 get_vec_start。 这 个 函数 返回 数 
组 的 起 始 地 址 ， 如 图 5-9 所 示 。 然 后 就 能 写 出 此 图 中 combine3 所 示 的 过 程 ， 其 中 的 循环 里 没 
有 了 顶 数 调用 。 它 没有 用 函数 调用 来 获取 每 个 向 量 元 素 ， 而 是 直接 访问 数组 。 一 个 纯粹 主义 者 可 能 
会 说 这 种 变换 严重 损害 了 程序 的 模块 性 。 原 则 上 来 说 ， 疝 量 抽象 数据 类 型 的 使 用 者 甚至 不 应 该 需 
要 知道 同 量 的 内 容 是 作为 数组 来 存储 的 ， 而 不 是 作为 诸如 链表 之 类 的 某 种 其 他 数据 结构 来 存储 
的 。 比 较 实际 的 程序 员 会 争论 说 这 种 变换 是 获得 高 性 能 结果 的 必要 步 又 。 


code/opt/vec.c 
data_t *get_vec_start(vec_ptr v) 


{ 


return Vv->data,; 


code/opit/vec.c 


. /* Direct access to vector data +*/ 
void combine3(vec_ptr v, data._t *dest) 
{ 
long int i; 
long int length = vec_length(v); 
data_t *data = get_vec_start(v) ; 


oo J 


*dest = IDENT ; 
for (i = 0; i < length; i++) { 
*dest = *dest OP datal[i]; 





图 5-9 消除 循环 中 的 函数 调用 。 得 到 的 代码 运行 速度 快 得 多 ， 这 是 以 损害 一 些 程序 的 模块 性 为 代价 的 


全 
移 双 


8.03 8.09 10.09 1109 12.08 
直接 数据 访问 6.01 8.01 10.01 11.01 12.02 





得 到 的 性 能 提高 出 乎 意料 的 普通 ， 只 提高 了 整数 求 和 的 性 能 。 不 过 同样 地 ， 这 样 的 低 效率 会 
成 为 试图 进一步 优化 的 瓶颈 。 我 们 还 会 再 回 到 这 个 函数 〈 见 5.11.2 节 )， 看 看 为 什么 combine2 
中 反复 的 边界 检查 不 会 让 性 能 更 差 。 对 于 性 能 至 关 重 要 的 应 用 来 说 ， 为 了 速度 ， 经 常 必须 要 损害 
一 些 模 块 性 和 抽象 性 。 为 了 防止 以 后 要 修改 代码 ， 添 加 一 些 文档 是 很 明智 的 ， 说 明 采 用 了 哪些 变 
换 以 及 导致 进行 这 些 变换 的 假设 。 


5.6 ”消除 不 必要 的 存储 器 引用 
combine3 的 代码 将 合并 运算 计算 的 值 累积 在 指针 dest 指定 的 位 置 。 通 过 检查 编译 出 来 
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的 循环 产生 的 汇编 代码 ， 可 以 看 出 这 个 属性 。 在 此 给 出 数据 类 型 为 fioat， 合 并 运算 为 乘法 的 
x86-64 代码 : 


combine3: data_t = fioat, OP = * 


i in Wrdx, data in %rax, dest in Wrbp 


1 .L498: loop: 

2 movss  (%rbp), %xmmO ” Read product from dest 

3 mulss (Wrax, rdx,4), %xmmO Multiply product by datafli} 
4 movss  %hxmmO0, (%rbp) Store product at dest 

5 addq $1, %rdx Tncrement i 

6 cmpq rdx, %r12 Compare i:1imit 

7 jg .L498 TF >, goto loop 

理解 x86-64 的 浮 点 代码 


我 们 在 网 络 汶 注 ASM:SSE 中 讲述 了 X86-64 的 浮 点 代码 ， 它 们 是 Intel 指令 集 的 64 位 版 本 ， 
但 是 对 于 任何 熟悉 IA32 代码 的 人 来 说 ， 本 章 展示 的 程序 示例 都 很 容易 理解 。 在 此 ， 我 们 简要 回 
顾 X86-64 及 其 浮上 点 指令 的 相关 内 容 。 

X86-64 指令 集 扩 展 了 IA32 的 32 位 寄存 器 ， 例如， 用“ 替换 “e"， 将 $eax、$%edi 
和 Sesp 扩展 到 64 位 版 本 &%rax、srdi 和 Srsp。 还 增加 了 8 个 寄存 器 ， 命 名 为 Sr8 一 $r15， 
极 大 地 增强 了 在 寄存 器 中 保存 临时 值 的 能 力 。 后 级 “q” 用 于 整数 指令 (例如 addq、cmpq) 表 
明 是 64 位 操作 。 

淳 点 数据 保存 在 一 组 XMM 寄存 器 中 ， 命 名 为 $xmm0 一 %xmm15。 每 个 寄存 器 都 是 128 位 
长 ， 能 够 存放 4 个 单 精度 (float) 或 者 2 个 双 精 度 (double) 浮 点 数 。 在 初始 描述 中 ， 我 们 只 
使 用 对 保存 在 SSE 寄存 器 中 的 单 精度 值 进 行 运算 的 指令 。 

movss 指令 复制 一 个 单 精 度数 。 像 各 种 IA32 MOYV 指令 一 样 ， 源 操作 数 和 目的 操作 数 可 以 
是 存储 器 位 置 ， 也 可 以 是 寄存 器 ， 但 是 它 使 用 XMM 和 寄存器， 而 不 是 通用 寄存 器 。mulss 指令 
进行 单 精度 数 乘 法 ， 乘 积存 放 在 第 二 个 操作 数 的 位 置 。 同 样 地 ， 源 和 目的 操作 数 在 存储 器 位 置 
中 ， 或 者 在 XMM 寄存 器 中 。 


从 在 这 段 循环 代码 中 ， 我 们 看 到 ， 对 应 于 指针 dest 的 地 址 存放 在 寄存 器 srbp 中 〈 这 与 在 
IA32 中 不 同 ， 在 IA32 中 ，%ebp 有 特殊 的 用 途 ， 作 为 帧 指针 ， 它 对 应 的 64 位 寄存 器 $rbp 可 以 
用 来 存放 任意 数据 )。 在 第 i 次 迭代 中 ， 程 序 读 出 这 个 位 置 处 的 值 ， 乘 以 data [i] ， 再 将 结果 存 
回 到 dest。 这 样 的 读 写 很 浪费 ， 因 为 每 次 迭代 开始 时 从 dest 读 出 的 值 就 是 上 次 迭代 最 后 写 人 
的 值 。 

我 们 能 够 消除 这 样 无 用 的 存储 器 读 写 ， 按 照 图 5-10 中 combine4 所 示 的 方式 重 写 代码 。 引 
”入 一 个 临时 变量 acc， 它 在 循环 中 用 来 累积 计算 出 来 的 值 。 只 有 在 循环 完成 之 后 结果 才 存 放 
在 dest 中 。 正 如 下 面 的 汇编 代码 所 示 ， 编 译 器 现在 可 以 用 寄存 器 sxmm0 来 保存 累积 值 。 
与 combine3 中 的 循环 相 比 ， 我 们 将 每 次 迭代 的 存储 器 操作 从 两 次 读 和 一 次 写 减少 到 只 需要 
一 次 读 。 


combine4d: data_t = float, OP = * 


i in %rdx, data in Wrax, limit in hrbp, acc in YxmmO 


1 .L488: loop: 

2 mulss (Wrax, Wrdx,4), %xmmO Multiply acc by datafli] 
3 addq $1, %rdx Increment 1 

4 cmpq %rdx, %rbp Compare limit:i 

5 


jg .L488 If >, goto loop 
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/* Accumulate result in local variable */ 
void combine4(vec_ptr v, data_t *dest) 
{ 
long int i; 
long int length = vec_length(v); 
data_t *data = get_vec_start(v); 
data_t acc = IDENT; 


for (i = 0; i < length; i++) { 
acc = acc OP data[i]; 
} 


*dest = acc; 





图 5-10 在 临时 变量 中 存放 结果 。 将 累积 值 存放 在 局 部 变量 acc〈 累 积 器 (accumulator) 简称 ) 中 ， 消 除 
了 每 次 循环 迭代 中 从 存储 器 中 读 出 并 将 更 新 值 写 回 的 需要 


我 们 看 到 程序 性 能 有 了 显著 的 提高 ， 如 下 表 所 示 ; 


z 


所 有 的 时 间 至 少 改进 了 2.4X ， 整 数 加 法 情况 的 时 间 下 降 到 了 每 元 素 两 个 时 钟 周 期 。 


表示 相对 性 能 

表示 性 能 改进 最 好 的 方法 就 是 形 如 TVT 的 比率 ， 这 里 T 是 原始 版 本 所 需 的 时 间 ， 而 
T ,是 修改 过 的 版 本 所 需 的 时 间 。 如 果 发 生 了 实际 的 改进 ， 饭 应 该 是 一 个 大 于 1.0 的 数字 。 我 们 
用 后 缓 “X ”来 表示 这 样 一 种 比率 ， 因 子 “2.4X” 读 作 “2.4 倍 ”。 

表示 相对 变化 的 更 加 传统 的 方法 是 百分比 ， 在 变化 很 小 时 ， 还 是 很 有 效 的 ， 但 是 它 的 定义 十 
分 含糊 。 它 应 该 是 100: (Ti 一 Tiow)/Trew， 还 是 100 (Ti 一 Tiow)/Tin， 或 是 别 的 什么 呢 ? 此 外 ， 对 于 
较 大 的 变化 ， 它 就 不 那么 有 帮助 了 。 说 “性 能 提高 了 140%” 比 简单 地 说 性 能 改进 因子 为 2.4 要 
更 难以 理解 一 些 。 


可 能 又 有 人 会 认为 编译 器 应 该 能 够 自动 将 图 5-9 中 所 示 的 combine3 的 代码 转换 为 在 寄存 
器 中 累积 那个 值 ， 就 像 图 5-10 中 所 示 的 combine4 的 代码 所 做 的 那样 。 然 而 实际 上 ， 由 于 存储 
器 的 别名 使 用 ， 两 个 函数 可 能 会 有 不 同 的 行为 。 例 如 ， 考 虑 整数 数据 ， 运 算 为 乘法 ， 标 识 元 素 为 
1 的 情况 。 设 v=[2, 3, 5] 是 一 个 由 3 个 元 素 组 成 的 向 量 ， 考 虑 下 面 两 个 函数 调用 : 


浮 点 数 
一 二 | ER 












直接 数据 访问 6.01 8.01 10.01 11.01 12.02 


积 在 临时 变量 4.00 | 5.00 





combine3(v, get_vec_start(v) + 2); 
combine4(v, get_vec._start(v) + 2); 


也 就 是 在 向 量 最 后 一 个 元 素 和 存放 结果 的 目标 之 间 创建 一 个 别名 。 那 么 ， 这 两 个 函数 的 执行 
如 下 ， 





combine3 [2, 3, 5] [2; 3 
combine4 [2, 3, 5] [2, 3, 5] 
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正如 前 面 讲 到 过 的 ，combine3 将 它 的 结果 累积 在 目标 位 置 ， 在 本 例 中 ， 目 标 位 置 就 是 向 量 
的 最 后 一 个 元 素 。 因 此 ， 这 个 值 首先 被 设置 为 1， 然 后 设 为 2: 1 = 2， 然 后 设 为 3.2 = 6。 最 后 一 
次 迭代 中 ， 这 个 值 会 乘 以 它 自己 ， 得 到 最 后 结果 36。 对 于 combine4 的 情况 来 说 ， 直 到 最 后 向 
量 都 保持 不 变 ， 结 束 之 前 ， 最 后 一 个 元 素 会 被 设置 为 计算 出 来 的 值 1 : 2 : 3 : 5=30。 

当然 ， 我 们 说 明 combine3 和 combine4 之 间 差 别 的 例子 是 人 为 设计 的 。 有 人 会 说 
combine4 的 行为 更 加 符合 函数 朱 述 的 意图 。 不 幸 的 是 ， 编 译 器 不 能 判断 函数 会 在 什么 情况 下 
被 调用 ， 以 及 程序 员 的 本 意 可 能 是 什么 。 取 而 代 之 的 是 ， 在 编译 combine3 时 ， 保 守 的 方法 是 
不 断 地 读 和 写 存储 器 ， 即 使 这 样 做 效率 不 太 高 。 
富 习 练习 题 5.4 当 用 带 命令 行 选项 “-02” 的 GCC 来 编译 combine3 时 ， 得 到 的 代码 CPE 性 能 远 好 于 

使 用 -O1 时 的 : 





combine3 用 -ol 编译 10.01 11.01 12.02 
combine3 用 -02 编译 3.00 4.02 5.03 
combine4 累积 在 临时 变量 中 3.00 4.00 5.00 





由 此 得 到 的 性 能 与 combine4 相当 ， 不 过 对 于 整数 求 和 的 情况 除外 ， 虽 然 性 能 已 经 得 到 了 显著 的 提高 ， 
但 是 还 低 于 combine4。 在 检查 编译 器 产生 的 汇编 代码 时 ， 我 们 发 现 对 内 循环 的 一 个 有 趣 的 变化 : 
combine3: data_t = flioat, OP = *, compiled -02 z 


i in prdx, data in %rax, limit in %rbp, dest at %rx12 
Product in %xmmO 


] .L560: 1oop: 

2 mulss (%rax,%rdx,4), %xmmO Multiply product by dataf{i] 
3 addq $1, Wrdx Tncrement i 

4 cmpq hrdx, %rbp Compare 1imit:i 

5 movss  %xmm0, (%r12) Store product at dest 


6 jg .L560 1f >, goto loop 


把 上 面 的 代码 与 用 优化 等 级 1 产生 的 代码 进行 比较 : 


combine3: data.t = float, OP = ¥, compiled -01 
i in prdx, data in Hrax, dest in %rbp 


1 .L498: loop: 

2 movss  (%rbp), %xmmO Read product from dest 

3 mulss  (%rax,%rdx,4), %xmmO Multiply product by datafli] 
4 movss ‘hxmm0, (%rbp) Store product at dest 

5 addq $1, %rdx Tncrement i 

6 cmpq %rdx, %r12 Compare i:1imit 

7 jg .L498 If >, goto 1obp 


我 们 看 到 ， 除 了 指令 顺序 有 些 不 同 ， 唯 一 的 区 别 就 是 使 用 更 多 优化 的 版 本 不 含有 movss 指令 ， 它 实现 

的 是 从 dest 指定 的 位 置 读数 据 (第 2 行 )。 

A. 寄存 器 $xmm0 的 角色 在 两 个 循环 中 有 什么 不 同 ? 

B. 这 个 使 用 更 多 优化 的 版 本 忠实 地 实现 了 combine3 的 C 语言 代码 吗 ， 包 括 在 dest 和 向 量 数据 之 
” 间 有 使 用 存储 器 别名 的 时 候 ? z z 

C. 解释 为 什么 这 个 优化 保持 了 期 望 的 行为 ， 或 者 给 出 一 个 例子 说 明 它 产生 了 与 使 用 较 少 优化 的 代码 不 

同 的 结果 。 : 
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使 用 了 这 最 后 的 变换 ， 至 此 ， 对 于 每 个 元 素 的 计算 ， 都 只 需要 2 ~ 5 个 时 钟 周期 。 比 起 最 开 
始 采用 优化 时 的 11 ~ 13 个 周期 ， 这 是 相当 大 的 提高 了 。 现 在 我 们 想 看 看 是 什么 因素 在 制约 着 我 
们 的 代码 的 性 能 ， 以 及 可 以 如 何 进一步 提高 。 


5.7 “理解 现代 处 理 器 


到 目前 为 止 ， 我们 运用 的 优化 都 不 依赖 于 目标 机 器 的 任何 特性 。 这 些 优化 只 是 简单 地 降低 了 
过 程 调用 的 开销 ， 以 及 消除 了 一 些 重 大 的 “妨碍 优化 的 因素 ” 这些 因素 会 给 优化 编译 器 造成 困 
难 。 随 着 试图 进一步 提高 性 能 ， 我 们 必须 考虑 利用 处 理 器 微 体系 结构 的 优化 ， 也 就 是 处 理 器 用 来 
执行 指令 的 底层 系统 设计 。 要 想 获得 充分 提高 的 性 能 ， 需 要 仔细 地 分 析 程 序 ， 同 时 代码 的 生成 也 
要 针对 目标 处 理 器 进行 调整 。 尽 管 如 此 ， 我 们 还 是 能 够 运用 一 些 基本 的 优化 ， 在 很 大 一 类 处 理 顺 
上 产生 整体 的 性 能 提高 。 我 们 在 这 里 公布 的 详细 性 能 结果 ， 对 其 他 机 器 不 一 定 有 同样 的 效果 ， 但 
是 操作 和 优化 的 通用 原则 对 各 种 各 样 的 机 器 都 适用 。 

为 了 理解 改进 性 能 的 方法 ， 我 们 需要 理解 现代 处 理 器 的 微 体 系 结构 。 由 于 可 以 将 大 量 的 晶体 
管 集 成 到 一 块 芯 片上 ， 现 代 微 处 理 器 采用 了 复杂 的 人 硬件， 试图 使 程序 性 能 最 大 化 。 带 来 的 一 个 后 
果 就 是 处 理 器 的 实际 操作 与 通过 观察 机 器 级 程序 所 察觉 到 的 大 相 径 庭 。 在 代码 级 上 ， 看 上 去 似乎 
是 一 次 执行 一 条 指令 ， 每 条 指令 都 包括 从 寄存 器 或 存储 器 取 值 ， 执 行 一 个 操作 ， 并 把 结果 存 回 到 
一 个 寄存 器 或 存储 器 位 置 。 在 实际 的 处 理 器 中 ， 是 同时 对 多 条 指令 求 值 ， 这 个 现象 称 为 指令 级 并 
行 。 在 某 些 设计 中 ， 可 以 有 100 条 或 更 多 条 指令 在 处 理 中 。 采 用 一 些 精细 的 机 制 来 确保 这 种 并 行 
执行 的 行为 ， 正 好 能 获得 机 器 级 程序 要 求 的 顺序 语义 模型 的 效果 。 现 代 微 处 理 器 取得 的 了 不 起 的 
功绩 之 一 是 : 它们 采用 复杂 而 奇异 的 微 处 理 器 结构 ， 其 中 ， 多 条 指令 可 以 并 行 地 执行 ， 同 时 又 呈 
现 一 种 简单 地 顺序 执行 指令 的 表象 。 

虽然 现代 微 处 理 器 的 详细 设计 超出 了 本 书 的 范围 ， 对 这 些微 处 理 器 运行 的 原则 有 一 般 性 的 了 
解 就 足够 理解 它们 如 何 实现 指令 级 并 行 。 我 们 会 发 现 两 种 下 界 描述 了 程序 的 最 大 性 能 。 当 一 系列 
操作 必须 按照 严格 顺序 执行 时 ， 就 会 遇 到 延迟 界限 〈latency bound)， 因 为 在 下 一 条 指令 开始 之 
前 ， 这 条 指令 必须 结束 。 当 代码 中 的 数据 相关 限制 了 处 理 器 利用 指令 级 并 行 的 能 力 时 ， 延 迟 界 
限 能 够 限定 程序 性 能 。 和 
这 个 界限 是 程序 性 能 的 终极 限制 。 
5.7.1 整体 操作 

图 5-11 是 现代 微 处 理 器 的 一 个 非常 简单 化 的 示意 图 。 我 们 假想 的 处 理 器 设计 是 不 太 严 格 
地 基于 Intel Core i7 的 处 理 器 设计 的 结构 ， 常 常用 它 的 项 目 代 码 名 “Nehalem” 来 称呼 它 [99]。 
Nehalem 微 体 系 结构 是 20 世纪 90 年 代 后 期 以 来 ， 许 多 制造 商 生 产 的 典型 的 高 端 处 理 器 。 在 工业 
界 称 为 超标 量 〈superscalar)， 意 思 是 它 可 以 在 每 个 时 钟 周期 执行 多 个 操作 ， 而 且 是 乱 序 的 《out- 
of-order)， 意 思 就 是 指令 执行 的 顺序 不 一 定 要 与 它们 在 机 器 级 程序 中 的 顺序 一 致 。 整 个 设计 有 两 
个 主要 部 分 : 指令 控制 单元 (Instruction Control Unit，ICU ) 和 执行 单元 (Execution Unit，EU )。 
前 者 负责 从 存储 器 中 读 出 指令 序列 ， 并 根据 这 些 指 令 序 列 生成 一 组 针对 程序 数据 的 基本 操作 ; 而 
后 者 执行 这 些 操 作 。 和 第 4 章 研究 过 的 按 序 (in-order) 流水 线 相 比 ， 乱 序 处 理 器 需要 更 大 更 复 

杂 的 硬件 ， 但 是 它们 能 更 好 地 达到 更 高 的 指令 级 并 行 度 。 

ICU 从 指令 高 速 缓 存 〈instruction cache) 中 读 取 指令 。 指 令 高 速 缓存 是 一 个 特殊 的 高 速 缓存 
存储 器 ， 它 包含 最 近 访 问 的 指令 。 通 常 ，ICU 会 在 当前 正在 执行 的 指令 很 早 之 前 取 指 ， 这 样 它 
才 有 足够 的 时 间 对 指令 译 码 ， 并 把 操作 发 送 到 EU。 不过， 一 个 问题 是 当 程 序 遇 到 分 支 S 时 ， 程 


日 术 语 “ 分 支 ” 专 指 条 件 转 移 指 令 。 对 处 理 器 来 说 ， 其 他 将 控制 传送 到 多 个 目的 地 址 的 指令 ,例如 过 程 返 回 和 间 
接 跳 转 ， 带 来 的 也 是 类 似 的 挑战 。 
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序 有 两 个 可 能 的 前 进 方向 。 一 种 可 能 会 选择 分 支 ， 控 制 被 传递 到 分 支 目 标 。 另 一 种 可 能 是 ， 不 
选择 分 支 ， 控 制 被 传递 到 指令 序列 的 下 一 条 指令 。 现 代 处 理 器 采用 了 一 种 称 为 分 支 预测 〈branch 
prediction) 的 技术 ， 处 理 器 会 猜测 是 否 会 选择 分 支 ， 同 时 还 预测 分 支 的 目标 地 址 。 使 用 投机 执 
行 (speculative execution) 的 技术 ， 处 理 器 会 开始 取出 位 于 它 预 测 的 分 支 会 跳 到 的 地 方 的 指令 ， 
并 对 指令 译 码 ， 甚 至 在 它 确 定 分 支 预测 是 否 正 确 之 前 就 开始 执行 这 些 操 作 。 如 果 过 后 确定 分 支 预 
测 错 误 ， 会 将 状态 重新 设置 到 分 支点 的 状态 ， 并 开始 取出 和 执行 另 一 个 方向 上 的 指令 。 标 号 为 取 
指控 制 的 块 包括 分 支 预测 ， 以 完成 确定 取 哪 些 指令 的 任务 。 


”指令 控制 
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图 5-11 一 个 现代 处 理 器 的 框图 。 指 令 控制 单元 负责 从 存储 器 中 读 出 指令 ， 并 产生 一 系列 基本 操作 。 然 后 
执行 单元 完成 这 些 操作 ， 以 及 指出 分 支 预 测 是 否 正确 


指令 译 码 逻辑 接收 实际 的 程序 指令 ， 并 将 它们 转换 成 一 组 基本 操作 〈 有 时 称 为 微 操 作 )。 每 
个 这 样 的 操作 都 完成 某 个 简单 的 计算 任务 ， 例 如 两 个 数 相 加 ， 从 存储 器 中 读数 据 ， 或 是 向 存储 器 
写 数据 。 对 于 具有 复杂 指令 的 机 器 ， 比 如 x86 处 理 器 ， 一 条 指令 可 以 被 译 码 成 可 变数 量 的 操作 。 
关于 指令 如 何 被 译 码 成 更 多 的 基本 操作 序列 的 细节 ， 不 同 的 机 器 都 会 不 同 ， 这 个 信息 可 谓 是 高 度 
机 密 。 幸 运 的 是 ， 不 需要 知道 某 台 机 器 实现 的 底层 细节 ， 我 们 也 能 优化 我 们 的 程序 。 

在 一 个 典型 的 x86 实现 中 ， 一 条 只 对 寄存 器 操作 的 指令 ， 例 如 


addl %Seax, %Sedx 


会 被 转化 成 一 个 操作 。 另 一 方面 ， 一 条 包括 一 个 或 者 多 个 存储 器 引用 的 指令 ， 例 如 


addl Seax, 4(%edx). 


会 产生 多 个 操作 ， 把 存储 器 引用 和 算术 运算 分 开 。 我 们 这 里 给 出 的 这 条 指令 会 被 译 码 成 为 三 个 操 
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作 : 一 个 操作 从 存储 器 中 加 载 一 个 值 到 处 理 器 中 ， 一 个 操作 将 加 载 进来 的 值 加 上 寄存 器 $eax 中 
的 值 ， 而 一 个 操作 将 结果 看 回 到 存储 器 。 这 种 译 码 逻 辑 分 解 指令 ， 人 允许 任务 在 一 组 专门 的 硬件 单 
元 之 间 进 行 分 割 。 然 后 ， 这 些 单元 可 以 并 行 地 执行 多 条 指令 的 各 个 部 分 。 

EU 接收 来 目 取 指 单元 的 操作 。 通 常 ， 每 个 时 钟 周期 会 接收 若干 个 操作 。 这 些 操作 会 被 分 派 
到 一 组 功能 单元 中 ， 它 们 会 执行 实际 的 操作 。 这 些 功能 单元 是 专门 用 来 处 理 特 定 类 型 的 操作 。 基 
于 Intel Core i7 的 功能 单元 ， 图 5-11 说 明了 一 组 典型 的 功能 单元 。 我 们 可 以 看 到 ， 有 三 个 功能 单 
元 专门 用 来 计算 ， 而 剩 下 的 两 个 是 用 来 读 (加 载 ) 和 写 (存储 ) 存储 器 。 每 个 计算 单元 可 以 执行 
多 个 不 同 的 操作 : 所 有 的 单元 都 至 少 可 以 执行 基本 整数 运算 ， 例 如 加 法 和 位 级 逻辑 运算 。 浮 点 运 
算 和 整数 乘法 需要 更 复杂 的 硬件 ， 所 以 只 能 由 特殊 的 功能 单元 处 理 。 

读 写 存储 器 是 由 加 载 和 存储 单元 实现 的 。 加 载 单 元 处 理 从 存储 器 读数 据 到 处 理 器 的 操作 。 
这 个 单元 有 一 个 加 法 器 来 完成 地 址 计算 。 类 似 的 ， 存 储 单元 处 理 从 处 理 器 写 数 据 到 存储 器 的 操 
作 。 它 也 有 一 个 加 法 器 来 完成 地 址 计算 。 如 图 中 所 示 ， 加 载 和 存储 单元 通过 数据 高 速 缓存 〈data 
cache) 来 访问 存储 器 。 数 据 高 速 缓存 是 一 个 高 速 存 储 器 ， 存 放 着 最 近 访问 的 数据 值 。 

使 用 投机 执行 技术 对 操作 求 值 ， 但 是 最 终结 果 不 会 存放 在 程序 寄存 器 或 数据 存储 器 中 ， 直 到 
处 理 器 能 确定 应 该 实际 执行 这 些 指令 。 分 支 操作 被 送 到 EU， 不 是 确定 分 支 该 往 哪里 去 ， 而 是 确 
定 分 支 预测 是 否 正确 。 如 果 预 测 错误 ，EU 会 丢弃 分 支点 之 后 计算 出 来 的 结果 。 它 还 会 发 信号 给 
分 支 单元 ， 说 预测 是 错误 的 ， 并 指出 正确 的 分 支 目 的 。 在 这 种 情况 中 ， 分 支 单 元 开始 在 新 的 位 置 
取 指 。 如 3.6.6 市 中 看 到 的 ， 这 样 的 预测 错误 会 导致 很 大 的 性 能 开销 。 在 可 以 取出 新 指令 、 译 码 
和 发 送 到 执行 单元 之 前 ， 要 花费 一 点 时 间 。 

在 ICU 中 ， 退 役 单 元 (retirement unit) 记录 正在 进行 的 处 理 ， 并 确保 它 遵 守 机 器 级 程序 的 
顺序 语义 。 我 们 的 图 中 展示 了 一 个 寄存 器 文件 〈iegister fle)， 它 包含 整数 、 浮 点 数 和 最 近 的 SSE 
寄存 器 ， 是 退役 单元 的 一 部 分 ， 因 为 退役 单元 控制 这 些 寄存 器 的 更 新 。 指 令 译 码 时 ， 关 于 指令 
的 信息 被 放置 在 一 个 先进 先 出 的 队列 中 。 这 个 信息 会 一 直 保 持 在 队列 中 ， 直 到 发 生 两 个 结果 中 的 
一 个 。 首 先 ， 一 旦 指令 的 操作 完成 了 ， 而 且 所 有 导致 这 条 指令 的 分 支点 也 都 被 确认 为 预测 正确 ， 
那么 这 条 指令 就 可 以 退役 (retired) 了 ， 所 有 对 程序 寄存 器 的 更 新 都 可 以 被 实际 执行 了 。 另 一 方 
面 ， 如 果 导 致 该 指令 的 某 个 分 支点 预测 错误 ， 这 条 指令 会 被 清空 (fushed)， 丢 弃 所 有 计算 出 来 
的 结果 。 通 过 这 种 方法 ， 预 测 错误 就 不 会 改变 程序 的 状态 了 。 

正如 我 们 已 经 描述 的 那样 ， 任 何 对 程序 状态 的 更 新 都 只 会 在 指令 退役 时 才 会 发 生 ， 只 有 在 处 
理 器 能 够 确信 和 导致 这 条 指令 的 所 有 分 支 都 预测 正确 了 ， 才 会 这 样 做 。 为 了 加 速 一 条 指令 到 另 一 条 
指令 的 结果 的 传送 ， 许 多 此 类 信息 是 在 执行 单元 之 间 交 换 的 ， 即 图 中 的 “操作 结果 ”。 如 图 中 的 
箭头 所 示 ， 执 行 单元 可 以 直接 将 结果 发 送 给 彼此 。 这 是 4.5.7 节 中 简单 处 理 器 设 订 中 采用 的 数据 
转发 技术 的 更 复杂 精细 版 本 。 

控制 操作 数 在 执行 单元 间 传送 的 最 常见 的 机 制 称 为 寄存 器 重 命名 (register renaming )。 当 一 
条 更 新 寄存 器 r 的 指令 译 码 时 ， 产 生 标 记 t， 得 到 一 个 指 疝 该 操作 结果 的 唯一 标识 符 。 条 目 (7， 
力 被 加 入 到 一 张 表 中 ， 该 表 维 护 着 每 个 程序 寄存 器 + 与 会 更 新 该 寄存 器 的 操作 的 标记 1 之 间 的 关 
联 。 当 随后 以 寄存 器 > 作为 操作 数 的 指令 译 码 时 ， 发 送 到 执行 单元 的 操作 会 包含 1 作为 操作 数 源 
的 值 。 当 某 个 执行 单元 完成 第 一 个 操作 时 ， 会 生成 一 个 结果 (v“， 力 ， 指 明 标 记 为 上 的 操作 产生 值 
v。 所 有 等 待 1 作为 源 的 操作 都 能 使 用 v 作为 源 值 ， 这 就 是 一 种 形式 的 数据 转发 。 通 过 这 种 机 制 ， 
值 可 以 直接 从 一 个 操作 直接 转发 到 另 一 个 操作 ， 而 不 是 写 到 寄存 器 文件 再 读 出 来 ， 使 得 第 二 个 操 
作 能 够 在 第 一 个 操作 完成 后 尽快 开始 。 重 命名 表 只 包含 关于 有 未 进行 写 操作 的 寄存 器 条 目 。 当 一 
条 被 译 码 的 指令 需要 寄存 器 >， 而 又 没有 标记 与 这 个 寄存 器 相关 联 ， 那 么 这 个 操作 数 可 以 直接 从 
寄存 器 文件 中 获取 。 有 了 寄存 器 重 命名 ， 即 使 只 有 在 处 理 器 确定 了 分 支 结 果 之 后 才能 更 新 寄存 
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器 ， 也 可 以 预测 着 执行 操作 的 整个 序列 。 


乱 序 处 理 的 历史 

乱 序 处 理 最 早 是 在 1964 年 Control Data Corporation 的 6600 处 理 器 中 实现 的 。 指 令 由 十 个 不 
同 的 功能 单元 处 理 ， 每 个 单元 都 能 独立 地 运行 。 在 那个 时 候 ， 这 种 时 钟 频率 为 10Mhz 的 机 器 被 
认为 是 科学 计算 最 好 的 机 器 。 

在 1966 年 ，IBM 首先 是 在 IBM 360/91 上 实现 了 乱 序 处 理 ， 但 只 是 用 来 执行 滔 点 指令 。 在 大 
约 25 年 的 时 间 里 ， 乱 序 处 理 部 被 认为 是 一 项 异乎 寻常 的 技术 ， 只 在 追求 尽 可 能 高 性 能 的 机 器 中 
使 用 ， 直 到 1990 年 IBM 在 RS/6000 系列 工作 站 中 重新 引入 了 这 项 技术 。 这 种 设计 成 为 了 IBM/ 
Motorola PowerPC 系列 的 基础 ，1993 年 引入 的 型 号 601， 它 成 为 第 一 个 使 用 乱 序 处 理 的 单 芯片 微 
处 理 器 。Intel 在 1995 年 的 PentiumPro 型 号 中 引入 了 乱 序 处 理 ， PentiumPro 的 底层 微 体系 结构 类 
似 于 Core 17 的 。 


5.7.2 功能 单元 的 性 能 

图 5-12 提供 了 Intel Core i7 的 一 些 算术 运算 的 性 能 ， 有 的 是 测量 出 来 的 ， 有 的 是 引用 Intel 
的 文献 [26]。 这 些 时 间 对 于 其 他 处 理 器 来 说 也 是 具有 代表 性 的 。 每 个 运算 都 是 由 两 个 周期 计数 值 
来 刻画 的 : 一 个 是 延迟 〈latency)， 它 表示 完成 运算 所 需要 的 总 时 间 ; 男 一 个 是 发 射 时 间 (issue 
time)， 它 表示 两 个 连续 的 同类 型 运算 之 间 需 要 的 最 小 时 钟 周期 数 。 





图 5-12 Intel Core i7 的 算术 运算 的 延迟 和 发 射 时 间 特 性 。 延 迟 表明 执行 实际 运算 所 需要 的 时 钟 周期 总 数 ， 
而 发 射 时 间 表 明 两 次 运算 之 间 间 隔 的 最 小 的 周期 数 。 除 法 需要 的 时 间 依赖 于 数据 值 


我 们 看 到 ， 随 着 字 长 的 增加 例如 从 单 精度 到 双 精 度 )， 对 于 更 复杂 的 数据 类 型 (例如 从 整 
数 到 浮 点 数 )， 对 于 更 复杂 的 运算 〈 例 如 从 加 法 到 乘法 )， 延 迟 也 会 增加 。 
我 们 还 可 以 看 到 大 多 数 形式 的 加 法 和 乘法 运算 的 发 射 时 间 为 1， 意思 是 说 在 每 个 时 钟 周期 ， 
处 理 器 都 可 以 开始 一 条 新 的 这 样 的 运算 。 这 种 很 短 的 发 射 时 间 是 通过 使 用 流水 线 实现 的 。 流 水 线 
化 的 功能 单元 实现 为 一 系列 的 阶段 〈stage)， 每 个 阶段 完成 一 部 分 的 运算 。 例 如 ， 一 个 典型 的 浮 
点 加 法 器 包含 三 个 阶段 〈 所 以 有 三 个 周期 的 延迟 ) : 一 个 阶段 处 理 指数 值 ， 一 个 阶段 将 小 数 相 加 ， 
而 另 一 个 阶段 对 结果 进行 合 人 。 算 术 运 算 可 以 连续 地 通过 各 个 阶段 ， 而 不 用 等 待 一 个 操作 完成 后 
再 开始 下 一 个 。 只 有 当 要 执行 的 运算 是 连续 的 、 逻 辑 上 独立 的 时 候 ， 才 能 利用 这 种 功能 。 发 射 时 
间 为 1 的 功能 单元 被 称 为 完全 流水 线 化 的 (fully pipelined) : 每 个 时 钟 周期 可 以 开始 一 个 新 的 运 
算 。 整 数 加 法 的 发 射 时 间 为 0.33， 这 是 因为 硬件 有 三 个 完全 流水 线 化 的 能 够 执行 整数 加 法 的 功能 
单元 。 人 处 理 器 有 能 力 每 个 时 钟 周期 执行 三 个 加 法 。 我 们 还 看 到 ， 0 (用 于 整数 和 浮 点 除法 ， 
还 用 来 计算 浮 点 平方 根 ) 不 是 完全 流水 线 化 的 一 一 它 的 发 射 时 间 只 比 它 的 延迟 少 几 个 周期 。 这 就 
意味 着 在 开始 一 条 新 运算 之 前 ， 除 法 器 必须 0 步骤 。 我 们 还 看 
到 ， 对 于 除法 的 延迟 和 发 射 时 间 是 以 范围 的 形式 给 出 的 ， 因 为 某 些 被 除数 和 除数 的 组 合 比 其 他 的 
组 合 需 要 更 多 的 步骤 。 除 法 的 长 延迟 和 长 发 射 丰 时 间 使 之 成 为 了 一 个 相对 开销 很 大 的 运算 。 
”表达 发 射 时 间 的 一 种 更 常见 的 方法 是 指明 这 个 功能 单元 的 最 大 吞吐 量 ， 定 义 为 发 射 时 间 的 倒 
数 。 一 个 完全 流水 线 化 的 功能 单元 有 最 大 的 吞吐 量 ， 每 个 时 钟 周期 一 个 运算 ， 而 发 射 时 间 较 大 的 
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功能 单元 的 最 大 吞吐 量 比较 小 。 

电路 设计 者 可 以 创建 具有 广泛 性 能 特性 的 功能 单元 。 创建 一 个 延迟 短 或 使 用 流水 线 的 单元 需 
要 较 多 的 硬件 ， 特 别 是 对 于 像 乘法 和 浮 点 操作 这 样 比较 复杂 的 功能 。 因 为 微 处 理 器 芯片 上 ， 对 于 
这 些 单元 ， 只 有 有 限 的 空间 ， 所 以 CPU 设计 者 必须 小 心地 平衡 功能 单元 的 数量 和 它们 各 自 的 性 
能 ， 以 获得 最 优 的 整体 性 能 。 设 计 者 们 评估 许多 不 同 的 基准 程序 ， 将 大 多 数 资源 用 于 最 关键 的 操 
作 。 如 图 5-12 表明 的 那样 ， 在 Core i7 的 设计 中 ， 整 数 乘 法 、 浮 点 乘法 和 加 法 被 认为 是 重要 的 操 
作 ， 即 使 为 了 获得 低 延 迟 和 较 高 的 流水 线 化 程度 需要 大 量 的 硬件 。 另 一 方面 ， 除 法 相对 不 太 常 
用 ， 而 且 要 想 实现 低 延 迟 或 完全 流水 线 化 是 很 困难 的 。 

这 些 算术 运算 的 延迟 和 发 射 时 间 (或 者 等 价 地 ， 最 大 吞吐 量 ) 会 影响 合并 函数 的 性 能 。 我 们 
用 CPE 值 的 两 个 基本 界限 来 表示 这 种 影响 : 





延迟 界限 给 出 了 任何 必须 按照 严格 顺序 完成 合并 运算 的 函数 所 需要 的 最 小 CPE 值 。 根 据 功 
能 单元 产生 结果 的 最 大 速率 ， 吞 吐 量 界限 给 出 了 CPE 的 最 小 界限 。 例 如 ， 因 为 只 有 一 个 乘法 器 ， 
它 的 发 射 时 间 为 1 个 时 钟 周期 ， 处 理 器 不 可 能 支持 每 个 时 钟 周期 大 于 一 条 乘法 的 速度 。 我 们 在 前 
面 就 注意 到 ， 处 理 器 有 三 个 能 够 进行 整数 加 法 的 功能 单元 ， 所 以 整数 加 法 的 发 射 时 间 为 0.33。 不 
幸 的 是 ， 因 为 需要 从 存储 器 读数 据 ， 这 造成 了 合并 函数 CPE 为 1.00 的 另 一 个 吞吐 量 界 限 。 我 们 
会 展示 延迟 界限 和 吞吐 量 界限 对 合并 函数 不 同 版 本 的 影 啊 。 
5.7.3 ”处 理 器 操作 的 抽象 模型 

我 们 会 使 用 程序 的 数据 流 〈data-flow) 表示 ， 作为 分 析 在 现代 处 理 器 上 执行 的 机 器 级 程序 性 
能 的 一 个 工具 ， 这 是 一 种 图 形 化 的 表示 方法 ， 展 现 了 不 同 操作 之 间 的 数据 相关 是 如 何 限制 它们 的 
执行 顺序 的 。 这 种 限制 形成 了 图 中 的 关键 路 径 〈critical path)， 这 是 执行 一 组 机 器 指令 所 需 时 钟 
周期 数 的 一 个 下 界 。 

在 继续 技术 细节 之 前 ， 人 combine4 所 获得 的 CPE 测量 值 是 很 有 帮助 的 ， 到 
目前 为 止 combine4 是 最 快 的 代码 : 


WW | 
combine4 338 累积 在 临时 变量 中 2.00 3.00 3.00 4.00 5.00 
延迟 界限 1.00 3.00 3.00 4.00 5.00 
吞吐 量 界限 : 1.00 1.00 1.00 1.00 .1.00 


我 们 可 以 看 到 ， 除了 整数 加 法 的 情况 ， 这 些 测量 值 与 处 理 器 的 延迟 界限 是 一 样 的 。 这 不 是 蕊 
合 一 一 它 表明 这 些 函 数 的 性 能 是 由 所 执行 的 求 和 或 者 乘积 计算 主宰 的 。 计 算 n 个 元 素 的 乘积 或 者 
和 需要 大 约 Ln+K 个 时 钟 周期 ， 这 里 工 是 合并 运算 的 延迟 ， 而 表示 调用 函数 和 初始 化 以 及 终 
止 循环 的 开销 。 因 此 ，CPE 就 等 于 延迟 界限 了 。 

1. 从 机 器 级 代码 到 数据 流 图 : 

程序 的 数据 流 表 示 是 非 正式 的 。 我 们 只 是 想 用 它 来 形象 地 描述 程序 中 的 数据 相关 是 如 何 主 衬 
程序 的 性 能 的 。 以 combine4 (图 5-10) 为 例 来 描述 数据 流 表示 法 。 我 们 将 注意 力 集中 在 循环 
执行 的 计算 上 ， 因 为 对 于 大 向 量 来 说 ， 这 是 决定 性 能 的 主要 因素 。 我 们 考虑 浮 点 数据 、 以 乘法 作 
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为 合并 运算 的 情况 ， 不 过 其 他 数据 类 型 和 运算 的 组 合 也 有 几乎 一 样 的 结构 。 这 个 循环 编译 出 的 代 
码 由 四 条 指令 组 成 ， 寄 存 器 $zdx 存放 循环 索引 i，%rax 三 放 数 组 地 址 data，%rcx 存放 循环 
界限 limit， 而 $xmm0 存放 累积 值 acc。 


combined: data tt = flioat, OP = x 


i in hrdx, data in %rax, limit in Arbp, acc in %xmmO 
| .L488: . loop: 
2 mulss  (%rax,%rdx,4), %xmmO Mulitiply acc by datali] 
3 addq $1, %rdx Increment i 
4 cmpq hrdx, hrbp Compare Jimit:i 
5 jg .L488 If >, goto loop 


如 图 5-13 所 示 ， 在 我 们 假想 的 处 理 器 设计 中 ， 指 令 译 码 器 会 把 这 四 条 指令 扩展 成 为 一 系列 
的 五 步 操作 ， 最 开始 的 乘法 指令 被 扩展 成 一 个 1oad 操作 ， 从 存储 器 读 出 源 操作 数 ， 和 一 个 mul 
操作 ， 执 行 乘法 。 


上 (Srax, Srdx, 4), $xmmO0 


addq $1,%rdx 
cmpq %rdx,%rbp 


jg loop 





图 5-13 combine4 内 循环 代码 的 图 形 化 表示 。 指 令 被 动态 地 翻译 成 一 个 或 者 两 个 操作 ， 每 个 操作 从 其 他 
操作 或 寄存 器 接收 值 ， 并 且 为 其 他 操作 和 寄存 器 产生 值 ， 我 们 给 出 最 后 一 条 指令 的 目标 为 标号 loop。 
它 跳 转 到 给 出 的 第 一 条 指令 


作为 生成 程序 数据 流 图 表示 的 一 步 ， 图 5-13 左边 的 方 框 和 线 给 出 了 各 个 指令 是 如 何 使 用 和 
更 新 寄存 器 的 ， 顶 部 的 方 框 表 示 循 环 开 始 时 寄存 器 的 值 ， 而 底部 的 方 框 表示 的 是 最 后 寄存 器 的 
值 。 例 如 ， 寄 存 器 srax 只 被 1oad 操作 在 执行 地 址 计算 时 作为 源 值 ， 因 此 这 个 寄存 器 在 循环 结 
束 时 有 着 同 循环 开始 时 一 样 的 值 。 类 似 地 ， 寄 存 器 srbp 只 被 cmp 操作 使 用 。 另 一 方面 ， 在 循 
环 中 ， 寄 存 器 $zdx 既 被 使 用 也 被 修改 。 它 的 初始 值 被 load 和 add 操作 使 用 ; 它 的 新 值 是 由 . 
add 操作 产生 的 ， 然 后 被 cmp 操作 使 用 。 在 循环 中 ，mul 操作 首先 使 用 寄存 器 $xmm0 的 初始 值 
作为 源 值 ， 然 后 会 修改 它 的 值 。 

图 5-13 中 的 某 些 操作 产生 的 值 不 对 应 于 任何 寄存 器 。 在 右边 ， 用 操作 间 的 驱 线 来 表示 。 
load 操作 从 存储 器 读 出 一 个 值 ， 然 后 把 它 直 接 传 递 到 mul 操作 。 由 于 这 两 个 操作 是 通过 对 一 条 
mulss 指令 译 码 产 生 的 ， 所 以 这 个 在 两 个 操作 之 间 传递 的 中 间 值 没有 与 之 相 头 联 的 寄存 器 。 cmp 
操作 更 新 条 件 码 ， 然 后 jg 操作 会 测试 这 些 条 件 码 。 

对 于 形成 循环 的 代码 片段 ， 我 们 可 以 将 访问 到 的 寄存 器 分 为 四 类 : 

只 读 : 这 些 寄 存 器 只 用 作 源 值 ， 可 以 作为 数据 ， 也 可 以 用 来 计算 存储 器 地 址 ， 但 是 在 循环 中 
它们 是 不 会 被 修改 的 。 循 环 combine4 的 只 读 寄存 器 是 %rax 和 %rbp。 

只 与 : 这 些 寄存 器 作为 数据 传送 操作 的 目的 。 在 本 循环 中 没有 这 样 的 寄存 器 。 

局 部 : 这 些 寄存 器 在 循环 内 部 被 修改 和 使 用 ， 迭 代 与 迭代 之 间 不 相关 。 在 这 个 循环 中 ， 条 件 
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码 寄存 器 就 是 例子 : cmp 操作 会 修改 它们 ， 然 后 jg 操作 会 使 用 它们 ， 不 过 这 种 相关 是 在 单 次 迭 
代 之 内 的 。 

循环 : 对 于 循环 来 说 ， 这 些 寄存 器 既 作 为 源 值 ， 又 作为 目的 ， 一 次 迭代 中 产生 的 值 会 在 另 
一 次 迭代 中 用 到 。 可 以 看 到 ，%rdx 和 %xmm0 是 combine4 的 循环 寄存 器 ， 对 应 于 程序 值 i 和 
ACC。o 

正如 我 们 会 看 到 的 ， 循 环 寄存 器 之 间 的 操作 链 决 定 了 限制 性 能 的 数据 相关 。 

图 5-14 是 对 图 5-13 的 图 形 化 表示 的 进一步 改进 ， 目 标 是 只 给 出 影响 程序 执行 时 间 的 操作 和 
数据 相关 。 在 图 5-14a 中 看 到 ， 我 们 重新 排列 了 操作 符 ， 更 清晰 地 表明 了 从 顶部 源 寄 存 器 〈 只 读 
寄存 器 和 循环 寄存 器 ) 到 底部 目的 寄存 器 〈 只 写 寄存 器 和 循环 寄存 器 ) 的 数据 流 。 





图 5-14 将 combine4 的 操作 抽象 成 数据 流 图 : a) 重新 排列 了 图 5-13 的 操作 符 ， 更 清晰 地 表明 了 数据 相 
关 ; b) 操作 在 一 次 迭代 中 使 用 某 些 值 ， 产 生出 在 下 一 次 迭代 中 需要 的 新 值 


在 图 5-14a 中 ， 如 果 操 作 符 不 属于 某 个 循环 寄存 器 之 间 的 相关 链 ， 那 么 就 把 它们 标识 成 白 
色 。 人 例如， 比较 (cmp) 和 分 支 (jg) 操作 不 直接 影响 程序 中 的 数据 流 。 假 设 指 令 控制 单元 预测 
会 选择 分 支 ， 因 此 程序 会 继续 循环 .比较 和 分 支 操 作 的 目的 是 测试 分 支 条 件 ， 如 果 不 选择 分 支 的 
话 ， 就 通知 ICU。 我 们 假设 这 个 检查 能 够 完成 得 足够 快 ， 不 会 减 慢 处 理 器 的 执行 。 

在 图 5-14b 中 ， 消 除了 左边 标识 为 白色 的 操作 符 ， 只 保留 了 循环 寄存 器 。 剩 下 的 是 一 个 抽 
象 的 模板 ， 表 明 的 是 由 于 循环 的 一 次 迭代 在 循环 寄存 器 中 形成 的 数据 相关 。 在 这 个 图 中 可 以 看 
到 ， 从 一 次 迭代 到 下 一 次 迭代 有 两 个 数据 相关 。 在 一 边 ， 我 们 看 到 存储 在 寄存 器 %$xmm0 中 的 程 
序 值 acc 的 连续 的 值 之 间 有 相关 。 通 过 将 acc 的 旧 值 乘 以 一 个 数据 元 素 ， 循 环 计算 出 acc 的 新 
值 ， 这 个 数据 元 素 是 由 1o0ad 操作 产生 的 。 在 另 一 边 ， 我 们 看 到 循环 索引 i 的 连续 的 值 之 间 有 相 
关 。 每 次 迭代 中 ，i 的 旧 值 用 来 计算 1oad 操作 的 地 址 ， 然 后 add 操作 也 会 增加 它 的 值 ， 计 算出 
新 值 。 本 

图 5-15 给 出 了 函数 combine4 内 循环 n 次 迭代 的 数据 流 表 示 。 可 以 看 出 ， 简 单 地 重复 图 
5-14 右边 的 模板 n 次 ， 就 能 得 到 这 张 图 。 我 们 可 以 看 到 ， 程 序 有 两 条 数据 相关 链 ， 分 别 对 应 于 
操作 mul 和 add 对 程序 值 acc 和 i 的 修改 。 假 设 单 精 度 乘法 延迟 为 4 个 周期 ， 而 整数 加 法 延迟 
为 1 个 周期 ， 可 以 看 到 左边 的 链 会 成 为 关键 路 径 ， 需 要 4n 个 周期 执行 。 右 边 的 链 只 需要 n 个 周 
期 执行 ， 因 此 ， 它 不 会 制约 程序 的 性 能 。 

图 5-15 说 明 执 行 单 精度 浮 点 乘法 时 ， 对 于 combine4， 为 什么 我 们 获得 了 等 于 4 个 周期 延 
迟 界限 的 CPE。 当 执行 这 个 函数 时 ， 浮 点 乘法 器 成 为 了 制约 来 源 。 循 环 中 需要 的 其 他 操作 一 一 
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控制 和 测试 循环 变量 1， 计 算 下 一 个 数据 元 素 的 地 址 ， 以 及 从 存储 器 中 读数 据 一 一 与 乘法 器 并 行 . 


地 进行 。 每 次 后 继 的 acc 的 值 被 计算 出 来 ， 它 就 反馈 回来 计 
算 下 一 个 值 ， 不 过 只 有 等 到 四 个 周期 后 才能 完成 。 

其 他 数据 类 型 和 运算 组 合 的 数据 流 与 图 5-15 所 示 的 内 容 
一 样 ， 只 是 在 左边 的 形成 数据 相关 链 的 数据 操作 不 同 。 对 于 
所 有 情况 ， 如 果 运 算 的 延迟 艺 大 于 1， 那 么 可 以 看 到 测量 出 
来 的 CPE 就 是 过， 表明 这 个 链 是 限制 性 能 的 关键 路 径 。 

2. 其 他 性 能 因素 

另 一 方面 ， 对 于 整数 加 法 的 情况 ， 我 们 对 combine4 的 
测试 表明 CPE 为 2.00， 而 根据 沿 着 图 5-15 中 左边 和 右边 形成 
的 相关 链 预 测 的 CPE 为 1.00， 测 试 值 比 预测 值 要 慢 。 这 说 明 
了 一 个 原则 ， 那 就 是 数据 流 表 示 中 的 关键 路 径 提 供 的 只 是 程 
序 需 要 周期 数 的 下 界 。 还 有 其 他 一 些 因 素 会 限制 性 能 ， 包 括 
可 用 的 功能 单元 的 数量 和 任何 一 步 中 功能 单元 之 间 能 够 传递 
数据 值 的 数量 。 对 于 合并 运算 为 整数 加 法 的 情况 ， 数 据 操作 
足够 快 ， 使 得 其 他 操作 供应 数据 的 速度 不 够 快 。 要 准确 地 确 
定 为 什么 程序 中 每 个 元 素 需 要 2.00 个 周期 ， 需 要 比 公 开 可 以 
获得 的 更 详细 得 多 的 硬件 设计 知识 。 

总 结 一 下 combine4 的 性 能 分 析 : 我 们 对 程序 操作 的 抽 
象 数 据 流 表 示 ， 说 明 combine4 的 关键 路 径 长 Ln， 是 由 对 
程序 值 acc 的 连续 更 新 造成 的 ， 这 条 路 径 将 CPE 限制 为 最 多 
了 。 除 了 整数 加 法 之 外 ， 对 于 所 有 的 其 他 情况 ， 测 量 出 的 CPE 
确实 等 于 了 ， 对 于 整数 加 法 ， 测 量 出 的 CPE 为 2.00 而 不 是 根 
据 关键 路 径 的 长 度 所 期 望 的 1.00。 

看 上 去 ， 延 久 界 限 是 基本 的 限制 ， 限 制 了 合并 运算 能 执 
行 的 速度 。 接 下 来 的 任务 是 重新 调整 操作 的 结构 ， 增 强 指令 
级 并 行 性 。 我 们 想 对 程序 做 变换 ， 使 得 唯一 的 限制 变 成 吞吐 
量 界限 ， 得 到 接近 于 1.00 的 CPE。 

苹 汉 练习 题 5.5 ”假设 写 一 个 对 多 项 式 求 值 的 函数 ， 这 里 ， 多 项 式 





aotaixtayx +***+ax" 


关键 路 径 





dotalo] | f : 





OR 
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图 5-15 


”的 次 数 为 n， 系 数 为 ao，ai，.….，a,。 对 于 值 x*， 我 们 对 多 项 式 求 值 ， 计 算 


combine4 内 循环 次 迭 
代 计 算 的 数据 流 表 示 。 乘 
法 操作 的 序列 形成 了 限制 
程序 性 能 的 关键 路 径 


($5-2) 


这 个 求 值 可 以 用 下 面 的 函数 来 实现 ， 参 数 包括 一 个 系数 数组 a、 值 x 和 多 项 式 的 次 数 degree (等 式 
(5-2) 中 的 值 )。 在 这 个 函数 的 一 个 循环 中 ， 我 们 计算 连续 的 等 式 的 项 ， 以 及 连续 的 x 的 罕 ; 


double poly(double a[], double x, int degree) 
long int i; 
double result = a[0] ; 


for (i = 1; i <= degree; i++) { 
result += a[i]j * xpwr; 


1 
2 
3 
4 
5 double xpwr = x; /* Equals x“i at start of loop */ 
6 
7 
8 


XPpWr = X * XpWr; 
9 } 
10 return result; 
11 


12 3} 
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A. 对 于 次 数 风 这 段 代 码 执行 多 少 次 加 法 和 多 少 次 乘法 运算 ? 
B. 在 我 们 的 参考 机 上 ， 算 术 运 算 的 延 送 如 图 5-12 所 示 ， 测 生 这 个 范 数 的 CPE 等 于 5.00。 根 据 由 于 实 
现 函 数 第 7 ~ 8 行 的 操作 ， 迭 代 之 间 形 成 的 数据 相关 ， 解 释 为 什么 会 得 到 这 样 的 CPE。 
是 练习 题 5.6 ”我 们 继续 探索 练习 题 5.5 中 描述 的 多 项 式 求 值 的 方法 。 通 过 采用 Horner 法 ， 一 种 以 英国 
数学 家 William G.Horner (1786 一 1837) 命名 的 方法 ， 对 多 项 式 求 值 ， 我 们 可 以 减少 乘法 的 数量 。 其 思 
想 是 反复 提出 x 的 客 ， 得 到 下 面 的 求 值 : 
aotx(aitx(ast***+x(a,_1+xa,)***)) (S$-3) 


使 用 Horner 法 ， 可 以 用 下 面 的 代码 实现 多 项 式 求 值 : 





1 /A* Apply Horner's method */ 
2 double polyh(double a[], double x, int degree) 
3 z 
4 long int i; 
5 double result = a[dqegree]; 
€ ‘for (i = degree-1; i >= 0; i--) 
2 result = a[i] + x*result; 
8 return result; 
} 
A. 对 于 次 数 n， 这 段 代码 执行 多 少 次 训 法 和 多 少 次 乘法 运算 ? 
B. 在 我 们 的 参考 机 上 ， 算 术 运 算 的 延迟 如 图 5-12 所 示 ， 测 量 这 个 函数 的 CPE 等 于 8.00。 根 据 由 于 实 
现 函 数 第 7 行 的 操作 ， 和 迭代 之 间 形 成 的 数据 相关 ， 解 释 为 什么 会 得 到 这 样 的 CPE。 
C. 请 解释 虽然 练习 题 5.5 中 所 示 的 函数 需要 更 多 的 操作 ， 但 是 它 是 如 何 运行 得 更 快 的 。 


5.8 ”循环 展开 a 

循环 展开 是 一 种 程序 变换 ， 通 过 增加 每 次 烛 代 计算 的 元 素 的 数量 ， 减 少 循 环 的 迭代 次 数 。 
psum2 函数 〈 见 图 5-1) 就 是 这 样 一 个 例子 ， 其 中 每 次 类 代 计算 前 置 和 的 两 个 元 素 ， 因 而 将 需要 
的 迭代 次 数 减 半 。 循 环 展开 能 够 从 两 个 方面 改 程序 的 性 能 。 首 先 ， 它 减少 了 不 直接 有 助 于 程序 结 
果 的 操作 的 数量 ， 例 如 循环 索引 计算 和 条 件 分 支 。 其 次 ， 它 提供 了 一 些 方法 ， 可 以 进一步 变化 代 
码 ， 区 在 本 下 由， 我 们 会 看 一 些 简单 的 循环 展开 ， 不 做 任 
何 进一步 的 变化 。  . 

图 5-16 是 合并 代码 的 使 用 两 次 循环 展开 的 版 本 第 一 个 循环 每 次 处 理 数组 的 两 个 元 素 。 也 
就 是 每 次 迭代 ， 循 环 索 引 i 加 2， 在 一 次 迭代 中 ， 对 数组 元 素 i 和 i+1 使 用 合并 运算 

: 一 般 来 说 ， 向 量 长 度 不 一 定 是 2 的 倍数 。 想 要 使 我 们 的 代码 对 任意 向 量 长 度 都 能 正确 工作 ， 
可 以 从 两 个 方面 来 解释 这 个 需求 。 首 先 ， 要 确保 第 一 次 循环 不 会 超出 数组 的 界限 。 对 于 长 度 为 n 
的 向 量 ， 我 们 将 循环 界限 设 为 一 1。 然 后 ， 保 证 只 有 当 循 环 索引 i 满足 i<n 一 1 时 才 会 执行 这 个 循 
环 ， 因 此 最 大 数组 索引 it1 满足 计 1<(n 一 1)+1=n。 

把 这 个 思想 归纳 为 循环 展开 次 。 为 此 ， 上 限 设 为 nkt1， 在 循环 内 对 元 素 i 到 itk 一 1 应 用 
合并 运算 。 每 次 迭代 ， 循 环 索 引 i 加 k。 那 么 最 大 循环 案 引 itk 一 1 会 小 于 n。 要 使 用 第 二 个 循环 ， 
以 每 次 处 理 一 个 元 素 的 方式 处 理 向 量 的 最 后 几 个 元 素 。 这 个 循环 体 将 会 执行 0 一 Kk1 次。 对 于 
全 2， 我 们 能 用 一 个 简单 的 条 件 语句 ， 可 选 地 增加 最 后 一 次 迭代 ， 如 函数 Psum2 〈 见 图 $-1) 所 
示 。 对 于 人 巡 2， 最 后 的 这 些 情况 最 好 用 一 个 循环 来 表示 ， 所 以 对 厂 2 的 情况 ， 我 们 同样 也 采用 这 
个 编程 惯例 。 

蕊 3 练习 题 5.7 修改 combine5 的 代码 ， 展 开 循环 呈 5 次 。 
当 测 量 展开 次 数 二 2 (combine5) 和 史 3 的 展开 代码 的 性 能 时 ， 得 到 下 面 的 结果 : 
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1 /x* Unroll loop by 2 */ 
2 void combine5(vec_ptr v, data_t *dest) 
3 + 

4 long int i; 

5 long int length = vec_length(v); 

6 long int limit = length-1; 

7 data_t *data = get_vec_start(v); 

8 data_t acc = IDENT ; 







/* Combine 2 elements at a time */ 
11 for (i = 0; i < limit; i+=2) { - 
12 acc = (acc OP data[i]) OP datal{[i+1]; 
13 } 


/* Finish any remaining elements */ 
16 | for (; i < length; i++) { z 
17 . acc = acc OP data[ij] ; 

18 } 


*dest = acc; 









combined 


combine5 


延迟 界限 
吞吐 量 界 限 





我 们 看 到 对 于 整数 加 法 和 乘法 ，CPE 有 所 改进 ， 而 对 于 浮 点 运算 ， 却 没有 。 图 5-17 给 出 了 
当 循 环 展 开 到 6 次 时 的 CPE 测量 值 。 对 于 展开 2 次 和 3 次 时 观察 到 的 趋势 还 在 继续 一 一 循环 展 
开 对 浮 点 运算 没有 帮助 ， 但 是 对 整数 加 法 和 乘法 ，CPE 降 至 1.00。 有 几 个 现象 造成 了 这 些 CPE 
测量 值 。 对 于 整数 加 法 的 情况 ， 我 们 看 到 展开 2 次 没有 什么 差别 ， 但 是 展开 3 次 会 使 CPE 降 至 
1.00， 达 到 了 这 个 操作 的 延迟 界限 和 吞吐 量 界限 。 会 有 这 样 的 结果 得 益 于 减少 了 循环 开销 操作 。 
相对 于 计算 向 量 和 所 需要 的 加 法 数量 ， 降 低 开 销 操 作 的 数量 ， 此 时 ， 整 数 加 法 的 一 个 周期 的 延 到 
成 为 了 限制 性 能 的 因素 。 


6.00 
.00 © © © sor) -= O 
4.00 加 - 国 图 长 区 -一 人 -一 double * 
~ 一 国 -一 fl1oat +* 
A 3.00 、 A A A A A wl Float + 
加 Wy : 一 会 一 int * 
[SN nl 
1.00 一 人 
0.00 
1 2 3 4 4 6 
展开 次 数 K 


图 5-17 不 同 循环 展开 次 数 的 CPE 性 能 。 循 环 展开 只 能 改进 整数 加 法 和 乘法 的 性 能 
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整数 乘法 改进 得 到 的 CPE 令 人 吃惊 。 我 们 看 到 当 展 开 次 数 £ 介 于 1 和 3 之 间 时 ，CPE 等 于 
3.00/k。 结 果 证 明 编 译 器 是 基于 重 关 联 变 换 (reassociation transformation〉 做 优化 的 ， 重 关联 变换 
就 是 改变 值 合 并 的 顺序 。 我 们 会 在 5.9.2 中 讲述 这 种 变换 。GCC 对 整数 乘法 做 了 这 种 变换 ， 但 是 
不 会 对 浮 点 加 法 或 乘法 做 这 种 变化 ， 这 是 由 于 不 同 运算 和 数据 类 型 的 结合 性 造成 的 ， 后 面 还 会 讨 
论 到 。 

要 理解 为 什么 循环 展开 不 会 改进 三 个 浮 点 数 情况 的 性 能 ， 让 我 们 来 考虑 一 下 内 循环 的 图 形 化 
表示 ， 单 精度 乘法 的 情况 如 图 5-18 所 示 。 在 此 我 们 看 到 ， 每 条 mulss 指令 被 翻译 成 两 个 操作 : 
一 个 操作 是 从 存储 器 中 加 载 一 个 数组 元 素 ， 另 一 个 是 把 这 个 值 乘 以 已 有 的 累积 值 。 这 里 我 们 看 
到 ， 循 环 的 每 次 执行 中 ， 对 寄存 器 sxmm0 读 和 写 两 次 。 可 以 重新 排列 、 简 化 和 抽象 这 张 图 ， 按 
照 图 5-19 所 示 的 过 程 得 到 图 5-19b 所 示 的 模板 。 然 后 ， 把 这 个 模板 复制 n/2 次 ， 给 出 一 个 长 度 为 
n 的 向 量 的 计算 ， 得 到 如 图 5-20 所 示 的 数据 流 表 示 。 在 此 我 们 看 到 ， 这 张 图 中 关键 路 径 还 是 n 
个 mul 操作 一 一 送 代 次 数 减 半 了 ， 但 是 每 次 迭代 中 还 是 有 两 个 顺序 的 乘法 操作 。 因 为 这 个 关键 
路 径 是 循环 没有 展开 代码 的 性 能 制约 因素 ， 而 它 仍 然 是 简单 循环 展开 代码 的 性 能 制约 因素 。 


mulss (%rax, %rdx, 4) ，%xmmO 


mulss 4(%rax, %rdx, 4) ，%xmm0 


addq $2, %rdx 
cmpq %rdx, %rbp 
jg loop 





图 5-18 . combine5 内 循环 代码 的 图 形 化 表示 。 每 次 迭代 有 两 条 mulss 指令 ， 每 条 指令 被 翻译 成 一 个 
load 和 一 个 mul 操作 . 





图 5-19 将 combines5 的 操作 抽象 成 数据 流 图 。 重 新 排列 、 简 化 和 抽象 图 5-18 的 表示 ， 给 出 连续 迭 
代 之 间 的 数据 相关 〈a)。 我 们 看 到 每 次 欠 代 必须 顺序 地 执行 两 个 乘法 〈b) 
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让 编译 器 展开 循环 
编译 器 可 以 很 容易 地 执行 循环 展开 。 只 要 优化 级 别 设 置 得 足够 高 ， 许 多 编译 器 都 能 例行公事 
地 做 到 这 一 点 。 用 命令 行 选项 “-funroll-loops’ z 


调用 GCC， 会 执行 特 环 展开 。 关键 路 径 









data[0] 
5.9 提高 并 行 性 

在 此 ， 程 序 是 受 运 算 单 元 的 延迟 限制 的 。 不 过 ， 
正如 我 们 表明 的 ， 执 行 加 法 和 乘法 的 功能 单元 是 完全 uatarl] | 
流水 线 化 的 ， 这 意味 着 它们 可 以 每 个 时 钟 周 期 开始 一 本 
个 新 操作 。 代 码 不 能 利用 这 种 能 力 ， 即 使 是 使 用 循 
环 展开 也 不 能 ， 这 是 因为 我 们 将 累积 值 放 在 一 个 单 CE 
独 的 变量 acc 中 。 在 前 面 的 计算 完成 之 前 ， 都 不 能 有 让] 
计算 acc 的 新 值 。 虽 然 功 能 单元 能 够 每 个 时 钟 周 
期 开始 一 个 新 的 操作 ， 但 是 它 只 会 每 工 个 周期 开始 
一 条 新 操作 ， 这 里 工 是 合并 操作 的 延迟 。 现 在 我 们 
要 考察 打破 这 种 顺序 相关 ， 得 到 比 延 迟 界限 更 好 性 能 人 
的 方法 。 
5.9.1 多 个 累积 变量 

对 于 一 个 可 结合 和 可 交换 的 合并 运算 来 说 ， 比 
如 说 整数 加 法 或 乘法 ， 我 们 可 以 通过 将 一 组 合并 运 
算 分 割 成 两 个 或 更 多 的 部 分 ， 并 在 最 后 合并 结果 来 Re 
提高 性 能 。 例 如 ，P, 表示 元 素 ao，a1，*…，a,1 的 en 
乘积 : | | 


n—l 
Pp, 一 [I Ci 
i=0 


假设 为 偶数 ， 我 们 还 可 以 把 它 写成 P= PE, XxPO，， 
这 里 PE, 是 索引 值 为 偶数 的 元 素 的 乘积 ， 而 PO, 是 索 
引 值 为 奇数 的 元 素 的 乘积 : 


人 


pF es 图 5-20 combine5 对 一 个 长 度 为 n 的 向 
"= [lo 量 进行 操作 的 数据 流 表示 。 虽 然 
循环 展开 了 2 次 ， 但 是 关键 路 径 

PO, 一 [J A2i41 上 还 是 有 nn 个 mul 操作 


i=0 

图 5-21 展示 的 是 使 用 这 种 方法 的 代码 。 它 既 使 用 了 两 次 循环 展开 ， 以 使 每 次 迭代 合并 更 多 
的 元 素 ， 也 使 用 了 两 路 并 行 ， 将 索引 值 为 偶数 的 元 素 累积 在 变量 acc0 中 ， 而 索引 值 为 奇数 的 元 
素 累 积 在 变量 accl 中 。 同 前 面 一 样 ， 我 们 还 包括 了 第 二 个 循环 ， 对 于 向 量 长 度 不 为 2 的 倍数 
时 ， 这 个 循环 要 累积 所 有 剩 下 的 数组 元 素 。 然 后 ， 我 们 对 acc0 和 accl 应 用 合并 运算 ， 计 算 最 
终 的 结果 。 

比较 只 做 循环 展开 和 既 做 循环 展开 同时 也 使 用 两 路 并 行 这 两 种 方法 ， 我 们 得 到 下 面 的 
性 能 : 
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py 累积 在 临时 变量 中 


combine5 展开 2 次 
combine6 2 次 展开 ，2 路 并 行 
延迟 界限 

吞 叶 量 界限 





/* Unroll loop by 2, 2-way parallelism */ 
void combine6(vec_ptr v, data.t *dest) 
{ 
long int 工 ; 
long int length = vec_length(v); 
long int limit = length-1; 
data_t *data = get_vec_start(v); - 
data_t acc0 IDENT ; 
data_t accl = IJDENT; 


/* Combine 2 elements at a time */ 
for (i = 0; i < limit; i+=2) { 
acc0 = acc0 OP data[i]; 
accl1 = accl OP data[i+1]; 
} 


/* Finish any remaining elements */ 
for (; i < length; i++) { 

acc0 = acc0 OP datal[il]; 
} 


*dest = acc0 OP accl; 





图 5-21 两 次 循环 展开 ,并 且 使 用 两 路 并 行 。 这 种 方法 利用 了 功能 单元 的 流水 线 能 力 
图 5-22 展示 了 做 次 循环 展开 和 路 并 行 变换 的 效果 ,最 大 为 6。 我们 可 以 看 到 ， 随 着 
值 的 增加 ， 所 有 合并 情况 的 CPE 都 增加 了 。 对 于 整数 乘法 和 浮 点 数 运算 ， 我 们 看 到 CPE 的 值 为 
7 这 里 了 是 操作 的 延迟 ， 最 高 可 以 得 到 吞吐 量 界 限 1.00。 我 们 还 看 到 使 用 标准 的 展开 ， 整 数 
加 法 也 达到 了 这 个 界限 。 


.00 上 -一心 一 
ol . 一 人 一 doubjle * 
| NN -国人 1]oat * 
名 3.00 上 一 将 一 on 人 ~ fl1oat + 
2. SR 一 Ke int + 





1 2 3 4 5 6 

: k 次 展开 

“图 5-22 大 次 循环 展开 和 大 路 并 行 时 的 CPE 性 能 。 采 用 这 种 变换 ， 所 有 的 CPE 都 有 提高 ， 最 高 到 达 
限定 值 1.00 
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要 理解 combine6 的 性 能 ， 我 们 从 图 5-23 所 示 的 代码 和 操作 序列 开始 。 通 过 图 5-24 所 示 
的 过 程 ， 可 以 推导 出 一 个 模板 ， 给 出 迭代 之 间 的 数据 相关 。 同 combine5 一 样 ， 这 个 内 循环 包 
括 两 个 mulss 运算 ， 但 是 这 些 指令 被 翻译 成 读 写 不 同 寄存 器 的 mul 操作 ， 它 们 之 间 没 有 数据 相 
关 ( 见 图 5-24b)。 然 后 ， 把 这 个 模板 复制 w2 次 〈 见 图 5-25)， 就 是 在 一 个 长 度 为 n 的 向 量 上 执 
行 这 个 函数 的 模型 。 可 以 看 到 ， 现 在 有 两 条 关键 路 径 ， 一 条 对 应 于 计算 索引 为 偶数 的 元 素 的 乘积 
(程序 值 acc0 )， 另 一 条 对 应 于 计算 索引 为 奇数 的 元 素 的 乘积 〈 程 序 值 accl )。 每 条 关键 路 径 只 
包含 n/2 个 操作 ， 因 此 导致 CPE 等 于 4.00/2。 相 似 的 分 析 可 以 解释 我 们 观察 到 的 对 于 不 同 的 数据 
类 型 和 合并 运算 的 组 合 ， 延 迟 为 工 的 操作 的 CPE 等 于 Z/2。 实 际 上 ， 我 们 正在 利用 功能 单元 的 流 
水 线 能 力 ， 将 利用 率 提高 到 2 倍 。 当 我 们 用 更 大 一 些 的 上 值 来 实施 这 种 变换 时 ， 发 现 不 能 将 CPE 


ry Pn er vy Tl SA 
2 ta 了 站 二 1 | (fi A 
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mulss (%rax, %rdx, 4), %xmmO 


mulss 4(%rax,%rdx, 4), %xmml 


. addq $2, %rdx 
cmpq %rdx, %rbp 


jg loop 


a ) b ) 


图 5-24 将 combine6 的 运算 抽象 成 数据 流 图 。 重 新 排列 、 简 化 和 抽象 图 5-23 的 表示 ， 给 出 连续 迭代 
之 间 的 数据 相关 《a)。 我 们 看 到 两 个 mul 操作 之 间 没 有 相关 〈b) 


在 第 2 章 已 经 看 到 ， 补 码 运算 是 可 交换 和 可 结合 的 ， 甚 至 是 当 溢 出 时 也 是 如 此 。 因 此 ， 对 于 
整数 数据 类 型 ， 在 所 有 可 能 的 情况 下 ，combine6 计算 出 的 结果 都 和 combine5 计算 出 的 相同 。 
因此 ， 优 化 编译 器 潜在 地 能 够 将 combine4 中 所 示 的 代码 首先 转换 成 combine5 的 一 个 二 路 循 
环 展开 变种 ， 然 后 再 通过 引入 并 行 性 ， 将 之 转换 成 combine6 的 一 个 变种 。 许 多 编译 器 自动 进 
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行 循 环 展开 ， 但 是 引入 这 种 并 行 形式 的 编译 器 相对 比较 少 。 
另 一 方面 ， 我 们 知道 浮 点 乘法 和 加 法 不 是 可 结合 的 。 因 此 ， 由 于 四 合 五 人 或 溢出 ，combine5 


和 combine6 可 能 产生 不 同 的 结果 。 例 如 ， 假 
想 这 样 一 种 情况 ， 所 有 索引 值 为 偶数 的 元 素 都 是 
绝对 值 非常 大 的 数 ， 而 索引 值 为 奇数 的 元 素 都 非 
常 接近 于 0.0。 那 么 ， 即 使 最 终 的 乘积 已, 不 会 溢 


出 ， 乘 积 PE, 也 可 能 溢出 ， 或 者 PO, 也 可 能 下 


洲 。 不 过 在 大 多 数 现 实 的 程序 中 ， 不 太 可 能 出 现 
这 样 的 情况 。 因 为 大 多 数 物 理 现象 是 连续 的 ， 所 
以 数字 数据 也 趋向 于 相当 的 平滑 ， 不 会 出 什么 问 
题 。 即 使 是 有 不 连续 的 时 候 ， 它 们 通常 也 不 会 导 
致 前 面 描述 的 条 件 那 样 的 周期 性 模式 。 按 照 严 格 
顺序 对 元 素 求 和 不 太 可 能 会 有 比 “ 分 成 两 组 独立 
求 和 ， 然 后 再 将 这 两 个 和 相 加 ”根本 上 更 好 的 准 
确 性 。 对 大 多 数 应 用 程序 来 说 ， 使 性 能 翻 倍 要 比 
对 奇怪 的 数据 模式 产生 不 同 的 结果 的 风险 更 重 
要 。 但 是 ， 程 序 开 发 人 员 应 该 与 潜在 的 用 户 协 
商 ， 看 看 是 否 有 特殊 的 条 件 ， 可 能 会 导致 修改 后 
的 算法 不 能 接受 。 
5.9.2 ”重新 结合 变换 

现在 来 探讨 另 一 种 打破 顺序 相关 从 而 使 性 
能 提高 到 延迟 界限 之 外 的 方法 。 我 们 看 到 过 
做 简单 循环 展开 的 combine5 没有 改变 合并 
向 量 元 素 形 成 和 或 者 乘积 中 执行 的 操作 。 不 
过 ， 对 代码 做 很 小 的 改动 ， 我 们 可 以 从 根本 
上 改变 合并 执行 的 方式 ， 也 极 大 地 提高 程序 
的 性 能 。 

图 5-26 给 出 了 一 个 函数 combine7， 它 
与 未 展开 的 代码 combine5 (图 5-16) 的 
唯一 区 别 在 于 内 循环 中 元 素 合并 的 方式 。 在 
combine5 中 ， 合 并 是 以 下 面 这 条 语句 来 实 
现 的 


5 0 
3 NE: Sa 
data[l] - 
data[2] |b 
: 人 
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图 5-25 Sos 对 一 个 长 度 为 n 的 向 量 进行 
操作 的 数据 流 表 示 。 现 在 有 两 条 关键 路 
径 ， 每 条 关键 路 径 包 含 n/2 个 操作 


12 acc = (acc OP datafi]) OP data[i+l] ; 


而 在 combine7 中 ， 合 并 是 以 这 条 语句 来 实现 的 


12 acc = acc OP (datal[li] OP datali+1]); 


差别 仅 在 于 两 个 括号 是 如 何 放置 的 。 我 们 称 之 为 重新 结合 变换 〈Ieassociation transformation )， 因 


为 括号 改变 了 向 量 元 素 与 累积 值 acc 的 合并 顺序 。 


对 于 未 经 训练 的 人 来 说 ， 这 两 个 语句 可 能 看 上 去 本 质 上 是 一 样 的 ， 0 CPE 的 


时 候 ， 得 到 令 人 吃惊 的 结果 : 
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combine4 累积 在 临时 变量 中 
combine5 展开 2 次 
combine6 2 次 展开 ，2 路 并 行 
combine7 2 次 展开 ， 重 新 结合 
延迟 界限 

吞吐 量 界限 


/* Change associativity of combining operation */ 
void combine7(vec_ptr v, data_t *dest) 


{ 


long int i; 


long int length = vec_length(v); 
long int limit = length-1; 
data_t *data = get_vec_start(v) ; 
data_t acc = IDENT; 


/* Combine 2 elements at a time */ 
for (i = 0; i < limit; i+=2) { 

acc = acc OP (data[i] OP data[i+1li] ) ; 
} 


/* Finish any remaining elements */ 
for (; i < length; i++) { 

acc = acc OP datal[i]; 
} 


*dest = acc; 





5-26 ”循环 展开 两 次 ， 然 后 重新 结合 合并 操作 。 这 种 方法 也 增加 可 以 并 行 执行 的 操作 数量 


combine7 的 整数 乘法 情况 的 性 能 几乎 与 使 用 简单 展开 的 版 本 (combine5) 的 性 能 相同 ， 
而 浮 点 数 的 情况 与 使 用 多 个 累积 变量 的 版 本 (combine6) 相同 ， 是 简单 扩展 的 性 能 的 两 们 。 
( 双 精 度 乘法 的 CPE 等 于 2.97， 极 有 可 能 是 测量 错误 的 结果 ， 真 实 值 应 该 是 2.5。 在 实验 中 ,我 
们 发 现 combine7 测量 出 来 的 CPE 比 其 他 函数 的 更 加 多 变 。) 

5-27 展示 了 应 用 重新 结合 变换 ， 实 现 大 次 循环 展开 并 重新 结合 的 效果 。 可 以 看 到 ， 随 着 
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-大 次 展开 | 
图 5-27 使 用 大 次 循环 展开 和 重新 结合 的 CPE 性 能 。 采 用 这 种 变换 ， 所 有 的 CPE 都 有 改进 ， 
最 高 到 限制 值 1.00 
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Kx 值 的 增加 ， 所 有 合并 情况 的 CPE 都 有 改进 。 对 于 整数 乘法 和 浮 点 运算 ;我 们 看 到 CPE 值 接近 
于 Lk， 这 里 工 是 操作 的 延迟 ， 最 高 到 达 界 限 1.00。 我 们 还 看 到 整数 加 法 当 太 3 时 ，CPE 为 1.00， 
达到 吞吐 量 界限 和 延迟 界限 。 

5-28 说 明了 combine7 内 循环 的 代码 (对 于 单 精度 乘积 的 情况 ) 是 如 何 被 译 码 成 操作 ， 
以 及 得 到 的 数据 相关 。 我 们 看 到 ， 来 自 于 movss 和 第 一 个 mulss 指令 的 1oad 操作 从 存储 器 中 
加 载 向 量 元 素 i 和 计 1， 第 一 个 mul 操作 把 它们 乘 起 来 。 然 后 ， 第 二 个 mul 操作 把 这 个 结果 乘 以 
累积 值 acc。 图 5-29 给 出 了 我 们 如 何 对 图 5-28 的 操作 进行 重新 排列 、 优 化 和 抽象 ， 得 到 表示 一 
次 迭代 中 数据 相关 的 模板 ( 见 图 5-29b)。 对 于 combine5 和 combine7 的 模板 ， 有 两 个 1oad 
和 两 个 mul 操作 ， 但 是 只 有 一 个 mul 操作 形成 了 循环 寄存 器 间 的 数据 相关 链 。 然 后 ， 把 这 个 模 
板 复制 w2 次 ， 给 出 了 z 个 向 量 元 素 相 乘 所 执行 的 计算 〈 图 5-30)， 我 们 可 以 看 到 关键 路 径 上 只 
有 n/2 个 操作 。 每 次 迭代 内 的 第 一 个 乘法 都 不 需要 等 待 前 一 次 迭代 的 累积 值 就 可 以 执行 。 因 此 ， 
最 小 可 能 的 CPE 减少 了 2 倍 。 当 我 们 增加 值 时 ， 每 次 迭代 中 关键 路 径 上 一 直 只 有 一 个 操作 。 
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movss (%rax, %rdx, 4), %xmmO 
mulss 4(%rax, %rdx, 4), %xmm0 


mulss %xmm0， %xmml 
addq $2,%rdx 
cmpq %rdx, %rbp 


jg loop 
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a) b ) 
图 5-29 将 combine7 的 操作 抽象 成 数据 流 图 。 我 们 重新 排列 、 简 化 和 抽象 图 5-28 的 表示 ， 


给 出 连续 迭代 之 间 的 数据 相关 〈a)。 第 一 个 mul 操作 让 两 个 向 量 元 素 相 乘 ， 而 第 二 
个 mul 操作 将 前 面 的 结果 乘 以 循环 变量 acc (b) 
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在 执行 重新 结合 变换 时 ， 我 们 又 一 次 改变 向 量 元 素 合 并 的 顺序 。 对 于 整数 加 法 和 乘法 ， 这 些 


运算 是 可 结合 的 ， 这 表示 这 种 重新 变换 顺序 对 结果 没有 
影响 。 对 于 浮 点 数 情况 ， 必 须 再 次 评估 这 种 重新 结合 是 
否 有 可 能 严重 影响 结果 。 我 们 会 说 对 大 多 数 应 用 而 言 ， 
这 种 差距 不 重要 。 

现在 我 们 可 以 解释 对 整数 乘法 情况 做 简单 循环 展开 
(combine5) 时 看 到 的 令 人 吃惊 的 性 能 提高 。 在 编译 
这 段 代 码 中 ，GCC 会 执行 combine7 中 展示 的 重新 
结合 ， 因 此 ， 达 到 一 样 的 性 能 。GCC 还 会 对 代码 执 
行 多 次 展开 。GCC 认识 到 它 可 以 对 整数 操作 很 安全 
地 执行 这 种 变换 ， 但 是 它 也 会 认识 到 由 于 没有 可 结合 
性 ， 不 能 对 浮 点 数 情况 做 变换 。GCC 认识 到 得 到 的 
代码 会 运行 得 更 快 ， 就 会 执行 这 种 变换 ， 如 果 确 实 是 
这 样 ， 那 就 太 好 了 ， 然 而 不 幸 的 是 ， 实 际 情况 并 非 如 
此 。 在 实验 中 ， 我 们 发 现 对 C 代码 做 很 小 的 改动 ， 就 
会 导致 GCC 对 操作 的 结合 大 相 径 庭 ， 相 对 于 简单 的 
编译 达到 的 性 能 ， 这 样 做 有 时 会 使 代码 加 速 ， 有 时 又 
会 减 慢 执行 速度 。 优 化 编译 器 必须 选择 它们 要 优化 哪 
些 因 素 ， 看 上 去 在 选择 如 何 对 整数 操作 进行 结合 的 时 
候 ，GCC 没有 把 最 大 化 指令 级 并 行当 作 它 的 优化 标 
准 。 
总 的 来 说 ， 重 新 结合 变换 能 够 减少 计算 中 关键 路 
径 上 操作 的 数量 ， 通 过 更 好 地 利用 功能 单元 的 流水 线 
能 力 得 到 更 好 的 性 能 。 大 多 数 编译 器 不 会 尝试 对 浮 点 
运算 做 重新 结合 ， 因 为 这 些 运 算 不 保证 是 可 结合 的 。 
当前 的 GCC 版 本 会 对 整数 运算 执行 重新 结合 ， 但 
是 不 是 总 有 好 的 效果 。 通 常 ， 我 们 发 现 循环 展开 和 
并 行 地 累积 在 多 个 值 中 ， 是 提高 程序 性 能 的 更 可 靠 的 
es 
ES 练习 题 5.8 ”考虑 下 面 的 计算 nn 个 整数 的 数组 乘积 的 函 

数 。 我 们 3 次 展开 这 个 循环 。 





double aprod(double a[], int n) 
{ 
int i; 
double x, y, 2Z; 
double rr = 1; 
for = 0; i < n-2; i+= 3) { 
= a[li]; y = a[li+1]; z = a[i+2] ; 
r=r*X* yu* 2; /* Product computation */ 
} 
for (; i < n; i++) 
r *= a[i]; 
return 工 ; 


关键 路 径 








图 5-30 combine7 对 一 个 长 度 为 n 的 向 
量 进行 操作 的 数据 流 表 示 。 我 们 
只 有 一 条 关键 路 径 ， 但 是 它 只 包 

” 售 n/2 个 操作 
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对 于 标记 为 Product computation 的 行 ， 可 以 用 括号 创建 该 计算 的 五 种 不 同 的 结合 ， 如 下 所 示 : 


((r * X) * y) * ZzZ; /* Al */ 
(rT * (Xx * y)) * ZzZ; /* A2 */ 
r * ((Xx * y) * 2Z); /* A3 */ 
r* (XxX* (y * 2)); /* A4 */ 
(r * X) * (y * 2); /* A5 */ 


假设 在 一 台 双 精度 乘法 延迟 为 5 个 时 钟 周 其 的 机 器 上 运行 这 些 函 数 。 根 据 乘法 的 数据 相关 ， 确 定 这 组 
CPE 的 下 界 。( 提 示 : 画 出 每 次 迭代 如 何 计 算 的 图 形 化 表示 会 有 所 帮助 。) 


网 络 旁 注 OPT:SIMD : 用 SIMD 指令 达到 更 高 的 并 行 度 

就 像 在 3.1 节 中 讲述 的 ,Intel 在 1999 年 引入 了 SSE 指令 ,SSE 是 “Streaming SIMD Extensions”( 流 
SIMD 扩展 ) 的 缩写 ， 而 SIMD ( 读 作 “sim-dee”) 是 “Single-Instruction, Multiple-Data”( 单 指 
令 多 数据 ) 的 缩写 。SIMD 执行 模型 背后 的 思想 是 每 个 16 字 节 的 XMM 寄存 器 可 以 存放 多 个 值 。 
在 例子 中 ， 我 们 考虑 这 些 寄 存 器 可 以 存放 4 个 整数 或 单 精度 值 、 或 者 2 个 双 精 度 值 的 情况 。 然 
后 ，SSE 指令 可 以 对 这 些 寄存 器 执行 向 量 操作 ， 例 如 并 行 地 加 或 者 乘 4 组 或 者 2 组 值 。 例 如 ， 如 
果 XMM 寄存 器 $xmm0 包含 4 个 单 精 度 浮上 点数 ， 用 qo，…，a; 表示 ， 而 Srcx 包含 4 个 单 精度 
浮 点 数 的 存储 器 地 址 ， 用 b,，…，b, 表示 ， 那 么 指令 


HH HH HH 
II il Th Il LI 


mulps (%$rcs),%Sxmmo 


会 从 存储 器 中 读 出 4 个 值 ， 并 行 地 执行 4 个 来 法 ， 计 算 a 一 a:b,，0 < i<3。 我 们 看 到 ， 一 条 
指令 能 够 产生 对 多 个 数据 值 的 计算 ， 因 此 称 为 “SIMD”。 

GCC 支持 对 C 语言 的 扩展 ， 能 够 让 程序 员 在 程序 中 使 用 向 量 操作 ， 这 些 操作 能 够 被 编译 成 
SSE 的 SIMD 指令 。 这 种 代码 风格 比 直接 用 汇编 语言 写 代码 要 好 ， 因 GCC 还 可 以 为 其 他 处 理 
器 上 才 找 得 到 的 SIMD 指令 产生 代码 。 

使 用 GCC 指令 、 循 环 展 开 和 多 个 累积 变量 的 组 合 ， 我 们 的 合并 函数 能 够 达到 下 面 的 
性 能 : 


.SSE+8 次 展开 
正如 上 表 所 示 ， 使 用 SSE 指令 降低 了 吞吐 量 界限 ， 对 于 所 有 5 种 情况 ， 都 几乎 达到 了 它们 
的 吞吐 量 界 限 。 整 数 加 法 、 单 精度 加 法 和 乘法 的 吞吐 量 界 限 为 0.25， 这 是 因为 SSE 指令 可 以 并 
行 地 执行 4 条 这 样 的 指令 ， 而 每 条 指令 的 发 射 时 间 为 1。 只 能 同时 执行 两 条 双 精 度 指令 ， 所 以 吞 
吐 量 界限 是 0.$。 整 数 乘 法 运算 的 吞吐 量 界 限 是 0.5， 原 因 是 不 同 的 一 一 虽然 可 以 同时 执行 4 条 指 
令 ， 但 是 它 的 发 射 时 间 为 2。 实际 上 ， 只 有 SSE 版 本 4 以 及 更 高 的 版 本 才 有 这 条 指令 (需要 命令 

行 标 志 “-msse4’)。 





5.10 ”优化 合并 代码 的 结果 小 结 


我 们 极 大 化 对 向 量 元 素 加 或 者 乘 的 函数 性 能 的 努力 获得 了 成 功 。 下 表 总 结 了 对 于 标量 代码 所 
获得 的 结果 ， 没 有 使 用 SSE 向 量 指 令 提供 的 SIMD 并 行 性 : 
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combinel 


combine6 展开 2 次 ，2 路 并 行 
’ 展开 5 次 ，5 路 并 行 

延迟 界限 

吞吐 量 界限 


使 用 多 项 优化 技术 ， 对 于 所 有 的 数据 类 型 和 运算 组 合 ， 使 用 普通 的 C 语言 代码 ， 我 们 已 经 
能 够 得 到 接近 于 1.00 的 CPE 了 ， 和 原始 版 本 combinel 相 比 ， 性 能 提高 超过 了 10 倍 。 

在 网 络 旁 注 OPT:SIMD 中 讲 到 ， 我 们 能 够 利用 GCC 对 SIMD 向 量 指 令 的 支持 ， 更 进一步 地 
提高 性 能 。 


SIMD 代码 0.25 0.55 | 0.25 0.24 0.58 
吞吐 量 界限 0.25 0.50 0.25 0.25 0.50 
对 于 整数 和 单 精度 数据 ， 处 理 器 可 以 支持 每 个 周期 4 个 合并 操作 ， 而 对 于 双 精 度数 据 ， 每 个 

周期 2 个 。 这 代表 处 理 器 性 能 超过 6 Gflops (每 秒 十 亿 个 浮 点 操作 )， 现 在 在 笔记 本 和 台式 机 上 
已 经 很 稍 见 了 。 

把 这 个 性 能 与 Cray 1S 的 性 能 做 比较 ，Cray 1S 是 1976 年 提出 的 突破 性 的 超级 计算 机 。 这 合 
机 器 花费 了 大 约 800 万 美元 ， 峰 值 性 能 0.25 Gflops， 此 时 耗 电 115 千瓦 ， 比 我 们 在 这 里 测量 的 还 
要 慢 20 多 倍 。 | ee z 

有 一 些 因素 限制 这 个 计算 的 性 能 ， 在 使 用 标量 指令 时 限制 CPE 达到 1.00， 在 使 用 SIMD 指 
令 时 限制 CPE 达到 0.25 (32 位 数据 ) 或 者 0.50 (64 位 数据 )。 首 先 ， 处 理 器 每 个 周期 只 能 从 数 
据 高 速 缓存 中 读 16 个 字 节 ， 然 后 ， 读 人 到 一 个 XMM 寄存 器 。 其 次 ， 乘 法 器 和 加 法 器 单元 每 个 
时 钟 周期 只 能 开始 一 条 新 操作 在 SIMD 指令 的 情况 下 ， 每 个 这 样 的 “操作 ”实际 上 计算 2 个 或 
者 4 个 和 或 者 乘积 )。 因 此 ， 我 们 已 经 成 功 地 得 到 了 这 个 合并 函数 在 这 人 台 机 器 上 能 够 获得 的 最 快 


5.11 ”一些 限制 因素 


我 们 已 经 看 到 在 一 个 程序 的 数据 流 图 表示 中 ， 关 键 路 径 指明 了 执行 该 程序 所 需 时 间 的 一 个 基 
本 的 下 界 。 也 就 是 说 ， 如 果 程 序 中 有 某 条 数据 相关 链 ， 这 条 链 上 的 所 有 延迟 之 和 等 于 T， 那 么 这 
个 程序 至 少 需要 了 个 周期 才能 执行 完 。 

我 们 还 看 到 功能 单元 的 吞吐 量 界限 也 是 程序 执行 时 间 的 一 个 下 界 。 也 就 是 说 ， 假 设 一 个 程序 
一 共 需 要 N 个 某 种 运算 的 计算 ， 而 微 处 理 器 只 有 m 个 能 执行 这 个 操作 的 功能 单元 ， 并 且 这 些 单 
元 的 发 射 时 间 为 i。 那么， 这 个 程序 的 执行 至 少 需要 Ni/m 个 周期 。 

在 本 节 中 ， 我 们 会 考虑 其 他 一 些 制 约 程序 在 实际 机 器 上 性 能 的 因素 。 

5.11.1 ”寄存 器 溢出 : 

循环 并 行 性 的 好 处 受到 描述 计算 的 汇编 代码 的 能 力 限制 。 特 别 地 ，IA32 指令 集 只 有 很 少量 
的 寄存 器 来 存放 累积 的 值 。 如 果 我 们 的 并 行 度 p 超过 了 可 用 的 寄存 器 数量 ， 那 么 编译 器 会 诉 诸 溢 
出 (spilling)， 将 某 些 临 时 值 存放 到 栈 中 。 一 旦 出 现 这 种 情况 ， 性 能 会 急剧 下 降 。 作 为 一 个 说 明 ， 
比较 一 下 我 们 的 并 行 累 积 变 量 代 码 对 整数 求 和 在 x86-64 和 IA32 的 性 能 : 
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我 们 看 到 对 于 IA32， 当 上 = 4 个 值 并 行 地 累积 时 ， 得 到 最 低 的 CPE， 当 的 值 再 变 大 的 时 
候 ，CPE ee 还 可 以 看 到 对 于 x86-64， 我 们 能 达到 CPE 等 于 1.00， 而 对 于 IA32， 我 们 
达 不 到 。 

”检查 所 5 的 情况 的 IA32 代码 ， 给 出 了 IA32 提供 很 少 寄存 器 的 影响 : 


1A32 code. Unroll X58, accumulate X，adatat = Int，0OP = + 
i in edx, data in heax, limit at hebp-20 


1 .L291: loop: 

2 imull (Yeax ,Yedx ,4) ，%ecx xO = x0 * datafi] 

3 mov1 -16(%ebp) , %ebx Get z1 

4 imull 4(%eax, hedx,4) ,webx Xl = xl * datali+1{] 
5 movl hebx, -16(hebp) Store x1 

6 imull] 8(%eax,%edx,4), %edi x2 = x2 * datafi+2] 
> imull 1i2(%eax,%edx,4), %esi XxX3 = x3 * data[i+3] 
8 movl -28(%ebp) ,%ebx Ger x4 

9 imull 1i6(%eax,%edx,4), %ebx Xx4 = x4d * daali+4] 
10 movl %ebx, -28(%ebp) Store x4 

11 addl $5, %edx it+= 5 

12 cmpl wedx, -20(%ebp) ne 1imit :i 

入 jg .L291 If >, goto. loop 


”在 这 里 我 们 看 到 累积 值 accl 和 acc4 被 < 溢出 ”到 栈 中 ， 位 于 相对 于 sebp 偏 移 量 为 一 16 
和 一 28 的 位 置 。 此 外 ， 终 止 值 Limit 保存 在 栈 中 偏 移 量 为 -20 的 地 方 。 这 些 es 
到 存储 器 相对 应 的 加 载 和 存储 会 抵消 使 用 多 个 值 并 行 累积 所 能 获得 的 好 处 。 

现在 我 们 能 看 到 从 IA32 扩展 到 x86-64 增加 的 人 人 寄存 嘎 的 价值 了 。 x86-64 代码 能 够 同时 累 
积 最 多 12 个 值 ， 而 不 会 溢出 任何 寄存 器 。 

5.11.2 ”分支 预测 和 预测 错误 处 罚 

在 3.6.6 节 中 通过 实验 证 明 ， 当 分 支 预测 逻辑 不 能 正确 预测 一 个 分 支 是 否 要 跳 转 的 时 候 ， 条 
件 分 支 可 能 会 招致 严重 的 预测 错误 处 罚 。 既 然 我 们 已 经 学 到 了 一 些 关于 处 理 医 是 如 何 工作 的 知 
识 ， 我 们 就 能 理解 这 样 的 处 罚 是 从 哪里 产生 出 来 的 了 。 

现代 处 理 器 的 工作 超前 于 当前 正在 执行 的 指令 ， 从 存储 器 读 新 指令 ， 并 解码 指令 ， 以 确定 
在 什么 操作 数 上 执行 什么 操作 。 只 要 指令 遵循 的 是 一 种 简单 的 顺序 ， 那 么 这 种 指令 流水 线 化 
(instruction pipelining ) 就 能 很 好 地 工作 。 当 遇 到 分 支 的 时 候 ， 处 理 器 必须 猜测 分 支 该 往 哪 个 方 
向 走 。 对 于 条 件 转移 的 情况 ， 这 意味 着 要 预测 是 否 会 选择 分 支 。 对 于 像 间接 跳 转 〈 跳 转 到 由 一 个 
跳 转 表 条 有 目 指定 的 地 址 ) 或 过 程 返回 这 样 的 指令 ， 这 意味 着 预测 目标 地 址 。 在 这 里 ， 我 们 集中 讨 
论 条 件 分 文 。 

在 一 个 使 用 投机 执行 (speculative execution) 的 处 理 器 中 ， 处 理 器 会 开始 执行 预测 的 分 支 目 
标 处 的 指令 。 它 这 样 做 会 避免 修改 任何 实际 的 寄存 器 或 存储 器 位 置 ， 直 到 确定 了 实际 的 结果 。 
如 果 预 测 是 正确 的 ， 那 么 处 理 器 就 会 “提交 ”投机 执行 的 指令 的 结果 ， 把 它们 存储 到 寄存 器 或 
存储 器 中 。 如 果 预 测 是 错误 的 ， 处 理 器 必须 丢弃 掉 所 有 投机 执行 的 结果 ,: 在 正确 的 位 置 ， 重 新 
开始 取 指 令 的 过 程 。 这 样 做 会 引起 预测 错误 出 发 ， 因 为 在 产生 有 用 的 结果 之 前 ， 必 须 重新 填充 指 
令 流 水 线 。 
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在 3.6.6 节 中 我 们 看 到 ， 最 近 的 x86 处 理 器 有 条 件 传 送 指令 ， 在 编译 条 件 语句 和 表达 式 的 时 
候 ，GCC 能 产生 使 用 这 些 指令 的 代码 ， 而 不 是 更 传统 的 基于 控制 的 条 件 转 移 的 实现 。 翻 译 成 条 
件 传 送 的 基本 思想 是 计算 出 一 个 条 件 表 达 式 或 语句 两 个 方向 上 的 值 ， 然 后 用 条 件 传 送 选 择期 望 的 
值 。 在 4.5.10 节 中 我 们 看 到 ， 条 件 传送 指令 可 以 被 实现 为 普通 指令 流水 线 化 处 理 的 一 部 分 。 没 有 
必要 猜测 条 件 是 否 满足 ， 因 此 猜测 错误 也 没有 处 罚 。 

那么 一 个 C 语言 程序 员 怎 么 能 够 保证 分 支 预测 处 罚 不 会 阻碍 程序 的 效率 呢 ? 对 于 Intel Core 
i7 来 说 ， 预 测 错误 处 罚 是 44 个 时 钟 周期 ， 财 注 很 高 。 对 于 这 个 问题 没有 简单 的 答案 ， 但 是 下 面 
的 通用 原则 是 可 用 的 。 

1. 不 要 过 分 关心 可 预测 的 分 支 

我 们 已 经 看 到 错误 的 分 支 预 测 的 影响 可 能 非常 大 ， 但 是 这 并 不 意味 着 所 有 的 程序 分 支 都 会 减 
缓 程序 的 执行 。 实 际 上 ， 现 代 处 理 器 中 的 分 支 预测 逻辑 非常 善于 辨别 不 同 的 分 支 指令 有 规律 的 模 
式 和 长 期 的 趋势 。 例 如 ， 在 合并 函数 中 闭合 循环 的 分 文通 常会 被 预测 为 选择 分 支 ， 因 此 只 在 最 后 
一 次 会 导致 预测 错误 处 罚 。 

再 来 看 另 一 个 例子 ， 当 从 combine2 变化 到 combine3 时 ， 我 们 把 函数 get vec element 
从 函数 的 内 循环 中 拿 了 出 来 ， 考 虑 一 下 我 们 看 到 的 很 小 的 性 能 提高 ， 如 下 所 示 : 


浮 点 数 
于 
combine2 333 
combine3 336 


移动 8.03 8.09 10.09 11.09 12.08 

直接 访问 数据 6.01 8.01 10.01 11.01 12.02 
CPE 基本 上 没 变 ， 即 使 这 个 函数 使 用 了 两 个 条 件 语 句 来 检查 向 量 索 引 是 否 在 界限 内 。 这 些 
检测 总 是 确定 索引 是 在 界 内 的 ， 所 以 是 高 度 可 预测 的 。 


作为 一 种 测试 边界 检查 对 性 能 影响 的 方法 ， 考 虑 下 面 的 合并 代码 ， 修 改 combine4 的 内 循 
环 ， 用 执行 替换 get_vec_element 代码 的 内 联 函 数 结果 其 换 对 数据 元 素 的 访问 。 我 们 称 这 个 
新 版 本 为 combine4b。 这 段 代 码 执 行 了 边界 检查 ， 还 会 通过 向 量 数据 结构 来 引用 向 量 元 素 。 


1 /* TInclude bounds check in loop */ 

















2 void combine4b(vec_ptr v, data_t *dest) 
3 1 

4 long int i; 

5 long int length = vec._length(v); 

6 data_t acc = IDENT; 

7 

8 for (i = 0; i < length; i++) { 

9 if (i >= 0 && i < v->len) { 

10 acc = acc OP v->data[i] ; 

11 } 

12 } 

13 *dest = 3CC ; 

14 J} 
然后 ， 我 们 直接 比较 使 用 和 不 使 用 边界 检查 的 函数 的 CPE : 





没有 边界 检查 1.00 3.00 3.00 4.00 5.00 
combine4b 361 边界 检查 4.00 4.00 4.00 4.00 5.00 


虽然 使 用 边界 检查 的 版 本 的 性 能 不 是 太 好 ， 最 多 时 它 把 CPE 增加 了 3 个 时 钟 周期 。 考 虑 到 
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边界 检查 代码 执行 了 两 个 条 件 分 支 ， 还 需要 一 个 加 载 操作 来 实现 表达 式 v->len， 这 还 是 很 小 的 差 
异 。 处 理 器 能 够 预测 这 些 分 支 的 结果 ， 所 以 这 些 求 值 都 不 会 对 形成 程序 执行 中 关键 路 径 的 指令 的 
取 指 和 处 理 产 生 太 大 的 影响 。 

2. 书写 适合 用 条 件 传送 实现 的 代码 

分 文 预测 只 对 规律 的 模式 可 靠 。 程 序 中 的 许多 测试 是 完全 不 可 预测 的 ， 依 赖 于 数据 的 任意 特 
性 ， 例 如 一 个 数 是 负数 还 是 正 数 。 对 于 这 些 测 试 ， 分 支 预测 逻 辑 会 处 理 得 很 粳 糕 ， 可 能 预测 正确 
率 有 50% 一 一 不 会 比 随机 猜测 更 好 。( 原 则 上 说 ， 分 支 预测 有 可 能 正确 率 低 于 50%， 但 是 这 样 的 
情况 非常 少见 。) 对 于 本 质 上 无 法 预测 的 情况 ， 如 果 编 译 器 能 够 产生 使 用 条 件数 据 传送 而 不 是 使 
用 条 件 控制 转移 的 代码 ， 可 以 极 大 地 提高 程序 的 性 能 。 这 不 是 C 语言 程序 可 以 直接 控制 的 ， 但 
是 有 些 表达 条 件 行为 的 方法 能 够 更 直接 地 被 翻译 成 条 件 传送 ， 而 不 是 其 他 操作 。 

我 们 发 现 GCC 能 够 为 以 一 种 更 “功能 式 的 ”风格 书写 的 代码 产生 条 件 传送 ， 在 这 种 风格 的 
代码 中 ， 我 们 用 条 件 操作 来 计算 值 ， 然 后 用 这 些 值 来 更 新 程序 状态 ， 这 种 风格 对 立 于 一 种 更 “ 命 
令 式 的 ”风格 ， 这 种 风格 中 ， 我 们 用 条 件 语句 来 有 选择 地 更 新 程序 状态 。 

这 两 种 风格 也 没有 严格 的 规则 ， 我 们 用 一 个 例子 来 说 明 。 假 设 给 定 两 个 整数 数组 a 和 b， 对 
于 每 个 位 置 1， 我 们 想 将 a[i] 设置 为 a[i] 和 b[i] 中 较 小 的 那 一 个 ， 而 将 b [i] 设置 为 两 者 
中 较 大 的 那 一 个 。 

用 命令 式 的 风格 实现 这 个 函数 是 检查 每 个 位 置 T， 如 果 它 们 的 顺序 与 我 们 想 要 的 不 同 ， 就 交 
换 两 个 元 素 : 





/* Rearrange two vectors so that for each i, bli] >= ali] */ 


， 
2 void minmaxi(int a[], int b[], int n) { 
3 int i; 
4 for (i = 0; i < n; i++) { 
5 if (a[i] > b[il) { 
6 int t = a[il]; 
7 a[i] = bl[i]; 
8 bf[i = t; 
9 } 


10 } 
11 } 


在 随机 数据 上 测试 这 个 函数 ， 得 到 的 CPE 大 约 为 14.30， 而 对 于 可 预测 的 数据 ，CPE 为 
3.00 ~ 4.00， 很 明显 是 高 预测 错误 惩罚 的 迹象 。 

eo 然后 将 这 些 值 分 别 赋 
给 a[i] 和 b[i 


/* Rearrange two vectors SO that for each i, b[i] >= a[i] */ 
void minmax2(int a[], int b[], int n) { 
int i; 
for (i = 0; i < n; i++) { 
int min = a[i] < b[i] ?了 al[lil] : b[i]; 
int max = a[i] < b[i] ? b[i] : al[il]; 
a[i] = min; 
b[i] = max; 


OO Po 人 NU 一 


} 


”对 这 个 函数 的 测试 表明 无 论 数 据 是 任意 的 ， 还 是 可 预测 的 ，CPE 都 大 约 为 5.0。( 我 们 还 检查 
了 产生 的 汇编 代码 ， 确 认 它 确实 使 用 了 条 件 传 送 。) 


二 
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在 3.6.6 节 中 讨论 过 ， 不 是 所 有 的 条 件 行为 都 能 用 条 件数 据 传送 来 实现 ， 所 以 无 可 避免 地 在 
某 些 情况 中 ， 程 序 员 不 能 避免 写 出 会 导致 条 件 分 支 的 代码 ， 而 对 于 这 些 条 件 分 支 ， 处 理 器 用 分 支 
预测 可 能 会 处 理 得 很 糟糕 。 但 是 ， 正 如 我 们 讲 过 的 ， 程 序 员 方面 用 一 点 点 聪明 ， 有 时 就 能 使 代码 
更 容易 被 翻译 成 条 件数 据 传送 。 这 需要 一 些 试验 ， 写 出 这 个 函数 的 不 同 版 本 ， 然 后 检查 一 下 产生 
出 的 汇编 代码 ， 并 测试 性 能 。 

本 练习 题 5.9 ”对 于 归并 排序 的 合并 步骤 的 传统 的 实现 需要 三 个 循环 : 


rt 





1 void merge(int srci[], int src2[], int dest[], int n) { 
2 int :il = 0; 
int i2 = 0; 
| int id = 0; 
5 while (il <n && i2 <n) { 
6 if (srci[i1] < src2[i2]) 
7 dest [id++] = srci[ili++]; 
8 else 
9 dest[id++] = src2[i2++]; 
10 } | 
11 While (il < DT) 


12 dest [id++] = srcl[ilit+]; 
13 While (i2 < n) 

14 dest [id++] = src2[i2++]; 
15 3} 


对 于 把 变量 i1l 和 i2 与 n 做 比较 导致 的 分 支 ， 有 很 好 的 预测 性 能 一 一 唯一 的 预测 错误 发 生 在 它们 第 一 
次 变 成 错误 时 。 另 一 方面 ， 值 srcl[il] 和 src2[i2] 之 间 的 比较 (第 6 行 )， 对 于 通常 的 数据 来 说 ， 
都 是 非常 难以 预测 的 。 这 个 比较 控制 一 个 条 件 分 支 ， 得 到 的 CPE 大 约 为 17.50 〈 这 里 元 素 的 数量 为 24)。 
重 写 这 段 代 码 ， 使 得 可 以 用 一 个 条 件 移动 语 名 来 实现 第 一 个 循环 中 条 件 语句 (第 6 一 9 行 ) 的 影响 。 


5.12 ”理解 存储 器 性 能 


到 目前 为 止 我 们 写 的 所 有 代码 ， 以 及 我 们 运行 的 所 有 测试 ， 只 访问 相对 比较 少量 的 存储 器 。 
例如 ， 我 们 都 是 在 长 度 小 于 1000 个 元 素 的 向 量 上 测试 这 些 合并 函数 ， 数 据 量 不 会 超过 8000 个 字 
节 。 所 有 的 现代 处 理 器 都 包含 一 个 或 多 个 高 速 缓存 〈cache) 存储 器 ， 以 对 这 样 少量 的 存储 器 提 
供 快 速 的 访问 。 本 节 会 进一步 研究 涉及 加 载 〈 从 存储 器 读 到 寄存 器 ) 和 存储 (从 寄存 器 写 到 
存储 器 ) 操作 的 程序 的 性 能 ， 只 考虑 所 有 的 数据 都 存放 在 高 速 缓存 中 的 情况 。 在 第 6 章 ， 我 
们 会 更 详细 地 探究 高 速 缓存 是 如 何 工 作 的， 它们 的 性 能 特性 ， 以 及 如 何 编写 充分 利用 高 速 组 
存 的 代码 。 

如 图 5-11 所 示 ， 现 代 处 理 器 有 专门 的 功能 单元 来 执行 加 载 和 存储 操作 ， 这 些 单元 有 内 部 的 
缓冲 区 来 保存 未 完成 的 存储 器 操作 请 求 集合 。 例 如 ，Intel Core i7 的 加 载 单元 的 缓冲 区 可 以 保存 
最 多 48 个 读 请 求 ， 而 存储 单元 的 缓冲 区 可 以 保存 最 多 32 个 写 请 求 [99]。 每 个 这 样 的 单元 通常 可 
以 每 个 时 钟 周期 开始 一 个 操作 。 

5.12.1 加载 的 性 能 : 

一 个 包含 加 载 操 作 的 程序 的 性 能 既 依 赖 于 流水 线 的 能 力 ， 也 依赖 于 加 载 单 元 的 延迟 。 在 对 
合并 运算 在 Core i7 上 的 实验 中 ， 我 们 看 到 除了 在 使 用 SIMD 操作 时 以 外 ，CPE 从 没有 到 过 1.00 
以 下 。 一 个 制约 示例 的 CPE 的 因素 是 ， 对 于 每 个 被 计算 的 元 素 ， 所 有 的 示例 都 需要 从 存储 器 读 
一 个 值 。 由 于 加 载 单元 每 个 时 钟 周期 只 能 启动 一 条 加 载 操 作 ， 所 以 CPE 不 可 能 小 于 1.00。 对 于 
每 个 被 计算 的 元 素 必 须 加 载 £ 个 值 的 应 用 ， 我 们 不 可 能 获得 低 于 的 CPE 例如 参见 家 庭 作业 
5.17)。 
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到 目前 为 止 ， 我 们 在 示例 中 还 没有 看 到 加 载 操 作 的 延迟 产生 的 影响 。 加 载 操 作 的 地 址 只 依赖 
于 循环 索引 i， 所 以 加 载 操 作 不 会 成 为 限制 性 


能 的 关键 路 径 的 一 部 分 。 typedef struct ELE { 
要 确定 一 台 机 器 上 加 载 操作 的 延迟 ， 我 ee 
们 可 以 建立 由 一 系列 加 载 操 作 组 成 的 一 个 计 } list_ele, *list_ptr; 
算 ， 一 条 加 载 操作 的 结果 决定 下 一 条 操作 的 ; int list_len(list_ptr 1S) { 
地 址 。 作 为 一 个 例子 ， 考 虑 图 5-31 中 的 函 int len EO 
数 1ist_len， 它 计算 一 个 链表 的 长 度 。 在 while (1s) { 
这 个 函数 的 循环 中 ， 变 量 1s 的 每 个 后 续 值 
依赖 于 指针 引用 1s->next 读 出 的 值 。 测 1 


试 表 明了 函数 1ist len 的 CPE 为 4.00， 我 有 return len; 
们 认为 这 直接 表明 了 加 载 操作 的 延迟 。 要 弄 本 

做 这 一 点 ， 考 虑 循环 的 汇编 代码 。( 我 们 给 
出 了 这 段 代码 的 x86-64 版 本 。IA32 代码 非 





图 5-31 ”链表 函数 。 这 些 函 数 说 明了 加 载 操 作 的 延迟 


常 类 似 。) 
len in Weax, 1s in %rdi 
1 :Li11i: loop: 
2 add]l $1, Weax Increment len 
3 movVdq (Wrdi), %rdi 1s = 1s->next 
4 testq  %rdi, %rdi Test 1s 
5 jne .Li1i IFf nonnull, goto loop 


第 3 行 上 的 movq 指令 是 这 个 循环 中 关键 的 瓶颈 。 寄 存 器 szdi 的 每 个 后 继 值 都 依赖 于 加 载 操作 
的 结果 ， 而 加 载 操 作 又 以 srdi 中 的 值 作 为 它 的 地 址 。 因 此 ， 直 到 前 一 次 迭代 的 加 载 操 作 完 成 ， 
下 一 次 迭代 的 加 载 操 作 才 能 开始 。 这 个 函数 的 CPE 等 于 4.00， 是 由 加 载 操作 的 延迟 决定 的 。 
5.12.2 存储 的 性 能 

在 迄今 为 止 所 有 的 示例 中 ， 我 们 只 分 析 了 大 部 分 对 存储 器 的 引用 都 是 加 载 操 作 的 函数 ， 也 就 
是 从 存储 位 置 读 到 寄存 器 中 。 与 之 对 应 的 是 存储 〈store) 操作 ， 它 将 一 个 寄存 器 值 写 到 存储 器 。 
这 个 操作 的 性 能 ， 尤 其 是 与 加 载 操 作 的 相互 关系 ， 包 括 一 些 很 细微 的 问题 。 

与 加 载 操 作 一 样 ， 在 大 多 数 情况 下 ， 存 储 操作 能 够 在 完全 流水 线 化 的 模式 中 工作 ， 每 个 周 
期 开始 一 条 新 的 存储 。 例 如 ， 考 虑 图 5-32 中 所 示 的 函数 ， 它 们 将 一 个 长 度 为 n 的 数组 dest 的 
元 素 设置 为 0。 我 们 对 这 第 一 个 版 本 的 测试 表明 CPE 为 2.00。 通 过 循环 展开 四 次 ， 如 clear_ 
array_4 的 代码 所 示 ， 我 们 得 到 CPE 1.00。 因 此 ， 我 们 0 
的 最 佳 情况 。 

同 目前 为 止 考虑 过 的 其 他 操作 不 同 ， 存 储 操作 并 不 影响 任何 寄存 器 值 。 因 此 ， 就 其 本 性 来 
说 ， 一 系列 存储 操作 不 会 产生 数据 相关 。 只 有 加 载 操作 是 受 存储 操作 结果 影响 的 ， 因 为 只 有 加 
载 操作 能 从 由 存储 操作 写 的 那个 存储 器 位 置 读 回 值 。 图 5-33 所 示 的 函数 write_read 说 明了 加 
载 和 存储 操作 之 间 可 能 的 相互 影响 。 这 幅 图 也 展示 了 该 函数 的 两 个 示例 执行 ， 是 对 两 元 素数 组 a 
调用 的 ， 该 数组 的 初始 内 容 为 一 10 和 17， 参 数 cnt 等 于 3。 i 
一 些 细微 之 处 。 

在 图 5-33 的 示例 A 中 ， 参 数 src 是 一 个 指向 数组 元 素 a[0] 的 指针 而 dest 是 一 个 指 回 
数组 元 素 a[1] 的 指针 。 在 此 种 情况 中 ， 指 针 引 用 * src 的 每 次 加 载 都 会 得 到 值 -10。 因 此 ， 在 
两 次 迭代 之 后 ， 数 组 元 素 就 会 分 别 保持 固定 为 ~-10 和 一 9。 从 src 读 出 的 结果 不 受 对 dest 的 写 
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的 影响 。 在 较 大 次 数 的 迭代 上 测试 这 个 示例 得 到 CPE 等 于 2.00。 


/* Set elements of array to 0 */ 
void clear_array(int *dest, int n) { 
int i; 
for (i = 0; i < n; i++) 
dest [i] = 0; 


} 


/* Set elements of array to 0, Unrolled X4 */ 
void clear_array_4(int *dest, int n) { 
int i; 
int limit = n-3; 
for (i = 0; i < limit; i+= 4) { 
dest [i] = 
.dest [i+1] 
dest [i+2] 
dest [i+3] 
} 
for (; i < limit; i++) 
dest[i] = 0; 





图 5-32 将 数组 元 素 设置 为 0 的 函数 。 它 们 说 明了 存储 操作 的 流水 线 化 
在 图 5-33 的 示例 B 中 ， 参 数 src 和 dest 都 是 指向 数组 元 素 a[0] 的 指针 。 在 这 种 情况 


/*Writetodest, readfromsrc*/ 
voidwrite read(int*src, int*dest, intn) 
{ 

Intcnt=n， 

intVval=0， 


while (cnt—) { 
*dest=val: 
val= (*src)+1: 


示例 A: write_read(&a[0], &a[1], 3) 


Initial 


示例 B : write_read(&a[0],&a[0],3) 


Initial || Tter 1 | lter. 


: 了 全 | 9 
0 | 





图 5-33 ” 写 和 读 存储 器 位 置 的 代码 ， 以 及 示例 执行 。 这 个 函数 强调 的 是 当 参 数 src 和 dest 
相等 时 ， 存 储 和 加 载 之 间 的 相互 影响 
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中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 指针 引用 *dest 的 前 次 执行 存储 的 值 。 因 而 ， 一 系列 
不 断 增 加 的 值 会 被 存储 在 这 个 位 置 。 通 常 ， 如 果 调 用 函数 write_read 时 参数 src 和 dest 指 
回 同 一 个 存储 器 位 置 ， 而 参数 cnt 的 值 为 nx>0， 那 么 净 效 果 是 将 这 个 位 置 设置 为 n 一 1。 这 个 示 
例 说 明了 一 个 现象 ， 我 们 称 之 为 写 / 读 相 关 (write/read dependency) 一 一 一 个 存储 器 读 的 结果 依 
赖 于 一 个 最 近 的 存储 器 写 。 我 们 的 性 能 测试 表明 示例 B 的 CPE 为 6.00。 写 / 读 相关 导致 处 理 
速度 的 下 降 。 
为 了 了 解 处 理 器 如 何 区 别 这 两 种 情况 ， 以 及 为 什么 一 种 情况 比 另 一 种 运行 得 慢 ， 我 们 必须 更 
加 和 仔细 地 看 看 加 载 和 存储 执行 单元 , . 如 图 5-34 所 示 。 存 储 单元 包含 一 个 存储 缓冲 区 ， 它 包含 已 
经 被 发 射 到 存储 单元 而 又 还 没有 完成 的 存储 操作 的 地 址 和 数据 ， 这 里 的 完成 包括 更 新 数据 高 速 组 
存 。 提 供 这 样 一 个 缓冲 区 ， 使 得 一 系列 存储 操作 不 必 等 待 每 个 操作 都 更 新 高 速 缓存 就 能 够 执行 。 
当 一 条 加 载 操 作 发 生 时 ， 它 必须 检查 存储 缓冲 区 中 的 条 目 ，. 看 有 没有 地 址 相 匹配 。 如 果 有 地 址 相 
匹配 (意味 着 在 写 的 字 节 与 在 读 的 字 节 有 相同 的 地 址 )， 它 就 取出 相应 的 数据 条 目 作 为 加 载 操作 
的 结果 。 





图 5-34 ”加 载 和 存储 单元 的 细节 。 存储 单元 包含 一 个 未 执行 的 写 的 缓冲 区 。 加 载 单元 必须 检 
查 它 的 地 址 是 否 与 存储 单元 中 的 地 址 相符 ， 以 发 现 写 / 读 相 关 


图 5-35 给 出 了 write_read 内 循环 的 汇编 代码 ， 以 及 指令 译 码 器 产生 的 操作 的 图 形 化 表 
示 。 指 令 movl $eax, (secx) 被 翻译 成 两 个 操作 : s_addr 指令 计算 存储 操作 的 地 址 ， 在 存储 
缓冲 区 创建 一 个 条 目 ， 并 且 设 置 该 条 目的 地 址 字段 。s_data 操作 设置 该 条 目的 数据 字段 。 正 如 
我 们 会 看 到 的 ， 两 个 计算 是 独立 执行 的 ， 这 对 程序 的 性 能 来 说 很 重要 。 

除了 由 于 写 和 读 寄 存 器 造成 的 操作 之 间 的 数据 相关 ， 操 作 符 右 边 的 弧 线 表示 这 些 操 作 隐 
含 的 相关 。 特 别 地 ，s_addqz 操作 的 地 址 计算 必须 在 s_data 操作 之 前 。 此 外 ， 对 指令 mov1 
(sebx) ， seax 译 码 得 到 的 1oad 操作 必须 检查 所 有 未 完成 的 存储 操作 的 地 址 ， 在 这 个 操作 和 
s_addr 操作 之 间 形 成 了 数据 相关 。 这 张 图 中 s_data 和 load 操作 之 间 有 虚 弧 线 。 这 个 数据 相 
关 是 有 条 件 的 : 如 果 两 个 地 址 相同 ，1oad 操作 必须 等 待 直到 s_data 将 它 的 结果 存放 到 存储 组 
冲 区 中 ， 但 是 如 果 两 个 地 址 不 同 ， 两 个 操作 就 可 以 独立 地 进行 。 

图 5-36 更 清晰 地 说 明了 write_read 内 循环 操作 之 间 的 数据 相关 。 在 图 5-36a 中 ， 重 新 排 
列 了 操作 ， 让 相关 显得 更 清楚 。 我 们 标 出 了 三 个 涉及 加 载 和 存储 操作 的 相关 ， 和 希望 引起 大 家 特别 
的 重视 。 标 号 为 (1) 的 弧 线 表示 存储 地 址 必须 在 数据 被 存储 之 前 计算 出 来 。 标 号 为 (2) 的 弧 
线 表示 需要 1oad 操作 将 它 的 地 址 与 所 有 未 完成 的 存储 操作 的 地 址 进行 比较 。 最 后 ， 标 号 为 (3) 
的 虚 弧 线 表 示 条 件数 据 相 关 ， 当 加 载 和 存储 地 址 相同 时 会 出 现 。 


匣 和 葛 优化 得 育 性 能 367 


| mov] Weax, (%ecx) 


mov]l (%ebx), %eax 
addl] $1, %eax 
subl] $1, %edx 


jne loop 





图 5-35 write read 内 循环 代码 的 图 形 化 表示 。 第 一 个 movl 指令 被 译 码 两 个 独立 的 操 
作 ， 计 算 存储 地 址 和 将 数据 存储 到 存储 器 





图 5-36 抽象 write_read 的 操作 。 我 们 首先 重新 排列 图 5-35 的 操作 (a)， 然 后 只 显 
示 那 些 使 用 一 次 迭代 中 的 值 在 下 一 次 近代 中 产生 新 值 的 操作 (b) 


图 5-36b 说 明了 当 移 走 那 些 不 直接 影响 迭代 与 迭代 之 间 数 据 流 的 操作 之 后 ， 会 发 生 什 么 。 这 
个 数据 流 图 给 出 两 个 相关 链 : 左边 的 一 条 ， 存 储 、 加 载 和 增加 数据 值 〈( 只 对 地 址 相同 的 情况 有 
效 ) ; 右边 的 一 条 ， 减 小 变量 cnt。 

现在 我 们 可 以 理解 函数 write_read 的 性 能 特征 了 。 图 5-37 说 明 的 是 内 循环 的 多 次 迭代 形 
成 的 数据 相关 。 对 于 图 5-33 示例 A 的 情况 ， 有 不 同 的 源 和 目的 地 址 ， 加 载 和 存储 操作 可 以 独立 
地 进行 ， 因 此 唯一 的 关键 路 径 是 由 减少 变量 cnt 形成 的 。 这 使 得 我 们 会 预测 CPE 等 于 1.00， 而 
不 是 测量 到 的 CPE 2.00。 对 于 任何 在 一 个 循环 内 既 存 储 又 加 载 数据 的 函数 来 说 ， 我 们 都 发 现 了 
类 似 的 行为 。 显 然 ， 比 较 加 载 地 址 和 未 完成 存储 操作 的 地 址 形成 了 额外 的 瓶颈 。 对 于 图 5-33 示 
例 B 的 情况 ， 源 地 址 和 目的 地 址 相同 ，s_data 和 1oad 指令 之 间 的 数据 相关 使 得 关键 路 径 的 形 
成 包括 了 存储 、 加 载 和 增加 数据 。 我 们 发 现 顺 序 执行 这 三 个 操作 一 共 需 要 6 个 时 钟 周 期 。 

这 两 个 例子 说 明 ， 存 储 器 操作 的 实现 包括 许多 细微 之 处 。 对 于 寄存 器 操作 ， 在 指令 被 译 码 成 
操作 的 时 候 ， 处 理 器 就 可 以 确定 哪些 指令 会 影响 其 他 哪些 指令 。 另 一 方面 ， 对 于 存储 器 操作 ， 只 
有 到 计算 出 加 载 和 存储 的 地 址 被 计算 出 来 以 后 ， 处 理 器 才能 确定 哪些 指令 会 影响 其 他 的 哪些 。 高 
效 地 处 理 存 储 器 操作 对 许多 程序 的 性 能 来 说 至 关 重 要 。 存 储 器 子 系统 使 用 了 很 多 优化 ， 例 如 当 操 
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作 可 以 独立 地 进行 时 潜在 的 并 行 性 。 | 
示例 A 
关键 路 径 





图 5-37 ”函数 write_ read 的 数据 流 表 示 。 当 两 个 地 址 不 同时 ， 唯 一 的 关键 路 径 是 减少 cnt 
形成 的 (示例 A)。 当 两 个 地 址 相同 时 ， 存 储 、 加 载 和 增加 数据 的 链 形成 了 关键 路 径 
(示例 B) z 





练习 题 5.10 以 下 是 另 一 个 具有 潜在 的 加 载 一 存储 相互 影响 的 代码 ， 考 虑 下 面 的 函数 ， 它 将 一 个 数组 
的 内 容 复制 到 另 一 个 数组 : 


1 void copy_array(int *src, int *dest, int 卫 ) 
2 + 

3 int i; 

4 for (i = 0; i < n; i++) 

5 | ‘dest[i] = src[i]; 

6 


假设 a 是 一 个 长 度 为 1000 的 数组 ， 它 被 初始 化 为 每 个 元 素 a[i] 等 于 i。 

A. 调用 copy array (a+1,a, 999) 的 效果 是 什么 ? 

B. 调用 copy_array (a, a+1, 999) 的 效果 是 什么 ? 

C. 我 们 的 性 能 测试 表明 问题 A 调用 的 CPE 为 2.00， 而 问题 B 调用 的 CPE 为 5.00。 你 认为 是 什么 因素 


上 沉香 优化 得 床 性 能 369 


造成 了 这 样 的 性 能 差异 ? 
D. 你 预计 调用 copy array (a, a, 999) 的 性 能 会 是 怎样 的 ? 

EN 练习 题 5.11 我 们 测量 出 前 置 和 函数 psuml (图 5-1) 的 CPE 为 10.00， 在 测试 机 器 上 ， 要 执行 的 基 
本 操作 ， 浮 点 加 法 的 延迟 只 是 3 个 时 钟 周期 。 试 着 理解 为 什么 我 们 的 函数 执行 效果 这 么 差 。 
下 面 是 这 个 函数 内 循环 的 汇编 代码 : 


psuml,. a in %rdi, p in Wrsi, i in brax, cnt In hrdx 





1 a Loop: 

2 movss -4(%rsi,Whrax,4), »%xmmO Get pli a 

3 addss (%rdi,%rax,4), %xmmO Add afi] 
4 movss Whxmm0, (%rsi,%hrax,4) Store at pli] 

5 addq $1, hrax Increment i 

6 cmpq hrax, hrdx Compare cnt:i | 
7 jg .L5 If >, goto 1oop 


参考 对 combine3 (图 5-14) 和 write read (图 5-36) 的 分 析 ， 画 出 这 个 循环 生成 的 数据 相关 
图 ， 再 画 出 计算 进行 时 由 此 形成 的 关键 路 径 。 
解释 为 什么 CPE 如 此 之 高 。( 你 可 能 无 法 证 明 CPE 为 什么 正好 是 这 个 值 ， 但 是 你 应 该 能 够 讲述 为 
什么 它 运 行 得 比 预期 的 慢 。) 
中 全 | 练习 题 5.12 重 写 psuml (图 5-1) 的 代码 ， 使 之 不 需要 反复 地 从 存储 器 中 读 取 P[i] 的 值 。 不 需要 
使 用 循环 展开 。 得 到 的 代码 测试 出 的 CPE 等 于 3.00， 受 浮 点 加 法 延迟 的 限制 。 


5.13 ”应 用 : 性 能 提高 技术 


虽然 只 考虑 了 有 限 的 一 组 应 用 程序 ， 但 是 我 们 能 得 出 关 于 如 何 编写 高 效 代码 的 很 重要 的 经 验 
教训 。 我 们 已 经 描述 了 许多 优化 程序 性 能 的 基本 策略 : 

1) 高 级 设计 。 为 遇 到 的 问题 选择 适当 的 算法 和 数据 结构 。 要 特别 警觉 ， 避 免 使 用 那些 会 渐 
进 地 产生 糟糕 性 能 的 算法 或 编码 技术 。 / 

2) 基本 编码 原则 。 避 免 限 制 优化 的 因素 ， 这 样 编译 器 就 能 产生 高 效 的 代码 。 

* 消除 连续 的 函数 调用 。 在 可 能 时 ， 将 计算 移 到 循环 外 。 考 虑 有 选择 地 妥协 程序 的 模块 性 以 

获得 更 大 的 效率 。 

“ 消除 不 必要 的 存储 器 引用 。 引入 临时 变量 来 保存 中 间 结 果 。 只 有 在 最 后 的 值 计 算出 来 时 ， 

才 将 结果 存放 到 数组 或 全 局 变量 中 。 

3) 低级 优化 。 z 

* 展开 循环 ， 降 低 开销 ， 并 且 使 得 进一步 的 优化 成 为 可 能 。 

* 通过 使 用 例如 多 个 累积 变量 和 重新 结合 等 技术 ， 找 到 方法 提高 指令 级 并 行 

“用 功能 的 风格 重 写 条 件 操作 ， 使 得 编译 采用 条 件数 据 传送 。 

最 后 要 给 读者 一 个 忠告 ， 要 警惕 ， 在 为 了 提高 效率 重 写 程序 时 避免 引入 错误 。 在 引入 新 变 
量 、 改 变 循环 边界 和 使 得 代码 整体 上 更 复杂 时 很 容易 犯错 误 。 一 项 有 用 的 技术 是 在 优化 函数 
时 ， 用 检查 代码 来 测试 函数 的 每 个 版 本 ， 以 确保 在 这 个 过 程 没 有 引入 错误 。 检 查 代 码 对 函数 的 新 
版 本 实施 一 系列 的 测试 ， 确 保 它 们 产生 与 原来 一 样 的 结果 。 对 于 高 度 优化 的 代码 ， 这 组 测试 情况 
必须 变 得 更 加 广泛 ， 因 为 要 考虑 的 情况 也 会 更 多 。 例 如 ， 使 用 循环 展开 的 检查 代码 需要 测试 许多 
不 同 的 循环 界限 ， 保 证 它 能 够 处 理 最 终 单 步 迭 代 所 需要 的 所 有 不 同 的 可 能 的 数字 。 


5.14 确认 和 消除 性 能 瓶颈 
至 此 ， 我 们 只 考虑 了 优化 小 的 程序 ， 在 这 样 的 小 程序 中 有 一 些 很 明显 限制 性 能 的 地 方 ， 因 此 
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应 该 集中 注意 力 对 它们 进行 优化 。 在 处 理 大 程序 时 ， 连 知道 应 该 优化 什么 地 方 都 是 很 难 的 。 本 节 
会 描述 如 何 使 用 代码 剖析 程序 (code profiler)， 这 是 在 程序 执行 时 收集 性 能 数据 的 分 析 工 具 。 我 
们 还 展示 了 一 个 系统 优化 的 通用 原则 ， 称 为 Amdahl 定律 Amdahl’s law)。 
5.14.1 程序 剖析 

程序 剖析 (profiling) 包括 运行 程序 的 一 个 版 本 ， 其 中 插入 了 工具 代码 ， 以 确定 程序 的 各 个 
部 分 需要 多 少时 间 。 这 对 于 程序 中 确认 我 们 需要 集中 注意 力 优化 的 部 分 是 很 有 用 的 。 剖 析 的 一 个 
有 力 之 处 在 于 可 以 在 现实 的 基准 数据 (benchmark data) 上 运行 实际 程序 的 同时 ， 进 行 剖析 。 

Unix 系统 提供 了 一 个 剖析 程序 GPROF。 这 个 程序 产生 两 种 形式 的 信息 。 首 先 ， 它 确定 程序 
中 每 个 函数 花费 了 多 少 CPU 时 间 。 其 次 ， 它 计算 每 个 函数 被 调用 的 次 数 ， 以 执行 调用 的 函数 来 
分 类 。 这 两 种 形式 的 信息 都 非常 有 用 。 这 些 计 时 给 出 了 不 同 函数 在 确定 整体 运行 时 间 中 的 相对 重 
要 性 。 调 用 信息 使 得 我 们 理解 程序 的 动态 行为 。 

用 GPROF 进行 剖析 需要 3 个 步骤 ， 就 像 C 程 序 prog.c 所 示 ， 它 运行 时 命令 行 参 数 为 
file. 七 Xt : 

1) 程序 必须 为 剖析 而 编译 和 链接 。 使 用 GCC (以 及 其 他 C 编译 器 )， 就 是 在 命令 行 上 简单 
地 包括 运行 时 标志 “一 pg”: 


unix> gcc -01 -pg prog.c -0 prog 
2) 然后 程序 像 往常 一 样 执行 : 


unix> ./prog file.txt 


它 运 行 得 会 比 正常 时 稍微 慢 一 点 〈 大 约 慢 2 倍 )， 不 过 除 此 之 外 唯一 的 区 别 就 是 它 产生 了 一 
个 文件 gmon .out。 
”“3) 调用 GPROF 来 分 析 gmon .out 中 的 数据 。 


Unix> gprof prog 


剖析 报告 的 第 一 部 分 列 出 了 执行 各 个 函数 花费 的 时 间 ， 按 照 降序 排列 。 作 为 一 个 示例 ， 下 面 
列 出 了 报告 的 一 部 分 ， 关 于 程序 中 最 耗费 时 间 的 三 个 函数 : 
% cumulative self self total 
time seconds seconds cajls s/call s/call name 
97.58 173.05 173.05 1 173.05 173.05 sort_words 


2.36 177 .24 4.19 965027 0.00 0.00 find_ele_rec 
0.12 177.46 0.22 12511031 0.00 0.00 Strlen 


每 一 行 代表 对 某 个 函数 的 所 有 调用 所 花费 的 时 间 。 第 一 列表 明 花 费 在 这 个 函数 上 的 时 间 占 整 
个 时 间 的 百分比 。 第 二 列 显示 的 是 直到 这 一 行 并 包括 这 一 行 的 函数 所 花费 的 累计 时 间 。 第 三 列 显 
示 的 是 花费 在 这 个 函数 上 的 时 间 。 而 第 四 列 显示 的 是 它 被 调用 的 次 数 〈 递 归 调用 不 计算 在 内 )。 
在 例子 中 ， 函 数 sort_words 只 被 调用 了 一 次 ， 但 就 是 这 一 次 调用 需要 173.05 秒 ， 而 琐 数 
find ele rec 被 调用 了 965 027 次 (递归 调用 不 计算 在 内 )， 总 共 需 要 4.19 秒 。 项 数 Strlen 
通过 调用 库 函 数 strlen 来 计算 字符 串 的 长 度 。GPROF 的 结果 中 通常 不 显示 库 消 数 调 用 。 库 
函数 耗费 的 时 间 通 常 计算 在 调用 它们 的 函数 内 。 通 过 创建 这 个 “包装 函数 ”(wrapper function ) 
Strlen， 我 们 可 以 可 靠 地 跟踪 对 strlen 的 调用 ， 表 明 它 被 调用 了 12 511 031 次 ， 但 是 一 共 只 
需要 0.22 秒 。 

剖析 报告 的 第 二 部 分 是 函数 的 调用 历史 。 下 面 是 一 个 递归 函数 find_ele_rec 的 历史 : 
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158655725 find_ele_rec [5] 
4.19 0.02 965027/965027 insert_string [4] 
[5] 2.4 4.19 0.02 965027+158655725 find_ele_rec [5] 
0.01 0.01 363039/363039 new_ele [10] 
0.00 0.01 363039/363039 save_string [13] 
158655725 find_ele_rec [5] 


这 个 历史 既 显 示 了 调用 find_ ele _rec 的 消 数 ， 也 显示 了 它 调用 的 函数 。 头 两 行 显示 的 是 对 这 
个 函数 的 调用 : 被 它 自身 递归 地 调用 了 158 655 725 次 ， 被 函数 insert _string 调用 了 965 027 
次 〈 它 本 身 被 调用 了 965 027 次 )。 了 水 数 find ele rec 也 调用 了 另外 两 个 水 数 save _ string 和 
new_ele， 每 个 函数 总 共 被 调用 了 363 039 次 。 

根据 这 个 调用 信息 ， 我 们 通常 可 以 推断 出 关于 程序 行为 的 有 用 信息 。 例 如， 函数 find_ 
ele_rec 是 一 个 递归 过 程 ， 它 扫描 一 个 哈 系 桶 (hash bucket) 的 链表 ， 查 找 一 个 特殊 的 字符 串 。 
对 于 这 个 函数 ， 比 较 递 归 调用 的 数量 和 顶层 调用 的 数量 ， 提 供 了 关于 遍历 这 些 链表 的 长 度 的 统计 
信息 。 这 里 递归 与 顶层 调用 的 比率 是 164.4， 我 们 可 以 推断 出 程序 每 次 平均 大 约 扫 描 164 个 元 素 。 

GPROF 有 些 属性 值得 注意 : 

。 计 时 不 是 很 准确 。 它 的 计时 基于 一 个 简单 的 间隔 计数 (interval counting) 机 制 ， 编 译 过 的 

程序 为 每 个 函数 维护 一 个 计数 器 ， 记 录 花 费 在 执行 该 函数 上 的 时 间 。 操 作 系 统 使 得 每 隔 某 

个 规则 的 时 间 间 隔 5， 程 序 被 中 断 一 次 。5 的 典型 值 的 范围 为 1.0 ~ 10.0 毫秒 。 当 中 断 发 生 

时 ， 它 会 确定 程序 正在 执行 什么 函数 ， 并 将 该 函数 的 计数 器 值 增加 6 。 当 然 ， 也 可 能 这 个 

隐 数 只 是 刚 开始 执行 ， 而 很 快 就 会 完成 ， 却 赋 给 它 从 上 次 中 断 以 来 整个 的 执行 开销 。 在 两 

次 中 断 之 间 也 可 能 运行 其 他 某 个 程序 ， 却 因此 根本 没有 计算 花费 。 

对 于 运行 时 间 较 长 的 程序 ， 这 种 机 制 工作 得 相当 好 。 从 统计 上 来 说 ， 应 该 根据 花费 在 执行 函 
数 上 的 相对 时 间 来 计算 每 个 函数 的 花费 。 不 过 ， 对 于 那些 运行 时 间 少 于 1 秒 的 程序 来 说 ， 得 到 的 
统计 数字 只 能 看 成 是 粗略 的 估计 值 。 

。 调 用 信息 相当 可 靠 。 编 译 过 的 程序 为 每 对 调用 者 和 被 调用 者 维护 一 个 计数 器 。 每 次 调用 一 

个 过 程 时 ， 就 会 对 适当 的 计数 器 加 1。 

。 默 认 情 况 下 ， 不 会 显示 对 库 函 数 的 调用 。 相 反 地 ， 库 函数 的 时 间 都 被 计算 到 调用 它们 的 函 

数 的 时 间 中 。 
5.14.2 ”使 用 剖析 程序 来 指导 优化 

作为 一 个 用 剂 析 程 序 来 指导 程序 优化 的 示例 ， 我 们 创建 了 一 个 包括 几 个 不 同 任务 和 数据 结构 
的 应 用 。 这 个 应 用 分 析 一 个 文本 文档 的 n-gram 统计 信息 ， 这 里 n-gram 是 一 个 出 现在 文档 中 个 
单词 的 序列 。 对 于 n=1， 收 集 每 个 单词 的 统计 信息 ， 对 于 n=2， 收 集 每 对 单词 的 统计 信息 ， 以 此 
类 推 。 对 于 一 个 给 定 的 n 值 ， 程 序 读 一 个 文本 文件 ， 创 建 一 张 互 不 相同 的 n-gram 的 表 ， 指 出 每 
个 n-gram 出 现 了 多 少 次 ， 然 后 按照 出 现 次 数 的 降序 对 单词 排序 。 

作为 基准 程序 ， 我 们 在 一 个 由 《莎士比亚 全 集 》 组 成 的 文件 上 运行 这 个 程序 ， 一 共有 965 028 
个 单词 ， 其 中 23 706 个 是 互 不 相同 的 。 我 们 发 现 ， 对 于 n=1， 即 使 是 一 个 写 得 很 烂 的 分 析 程 序 
也 能 在 1 秒 以 内 处 理 完整 个 文件 ， 所 以 我 们 设置 n=2， 使 得 事情 更 加 有 挑战 。 对 于 n=2 的 情况 ， 
n-gram 被 称 为 bigram〔 读 作 “bye-gram”)。 我 们 确定 《莎士比亚 全 集 》 包 含 363 039 个 互 不 相同 
的 bigram。 最 常见 的 是 “I am”， 出 现 了 1 892 次 。 词 组 “to be” 出 现 了 1 020 次 。bigram 中 有 
266 018 个 只 出 现 了 一 次 。 

程序 是 由 下 列 部 分 组 成 的 。 我 们 创建 了 多 个 版 本 ， 从 各 部 分 简单 的 算法 开始 ， 然 后 再 换 成 更 
成 熟 完 善 的 算法 : 

1) 从 文件 中 读 出 每 个 单词 ， 并 转换 成 小 写字 母 。 最 初 的 版 本 使 用 的 是 函数 lowerl 
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见 图 5-7)， 我 们 知道 由 于 反复 地 调用 strlen， 它 的 时 间 复 杂 度 是 二 次 的 。 

2) 对 字符 串 应 用 一 个 哈 硕 函 数 ， 为 一 个 有 个 桶 〈bucket) 的 哈 希 表 产 生 一 个 0 一 s% 一 1 之 
间 的 数 。 最 初 的 函数 只 是 简单 地 对 字符 的 ASCII 代码 求 和 ， 再 对 求 模 。 

3) 每 个 哈 希 桶 都 组 织 成 一 个 链表 。 程 序 沿 着 这 个 链表 扫描 ， 寻 找 一 个 匹配 的 条 目 。 如 果 找 
到 了 ， 这 个 n-gram 的 频 度 就 加 1。 否 则 ， 就 创建 一 个 新 的 链表 元 素 。 最 初 的 版 本 递归 地 完成 这 
个 操作 ， 将 新 元 素 插 在 链表 尾部 。 

4) 一 旦 已 经 生成 了 这 张 表 ， 我 们 就 根据 频 度 对 所 有 的 元 素 排 序 。 最 初 的 版 本 使 用 插入 排序 。 

图 5-38 是 n-gram 频 度 分 析 程 序 6 个 不 同 版 本 的 齐 析 结果 。 对 于 每 个 版 本 ， 我 们 将 时 间 分 为 
下 面 的 5 类: 

Sort : 按照 频 度 对 n-gram 进行 排序 

List ; 为 匹配 n-gram 扫描 链表 ， 如 果 需 要 ， 插 入 一 个 新 的 元 素 

Lower : 将 字符 串 转 换 为 小 写字 母 

Strlen : 计算 字符 串 的 长 度 

Hash. 计算 哈 希 函数 

Rest : 其 他 所 有 函数 的 和 


日 Sort 
List 
Lower 


Strlen 
Hash 
加 Rest 





Initial Quicksort Iter first Iter last Big table Better hash Linear lower 


a ) 所 有 的 版 本 


Sort 
图 List 
Lower 


CPU 秒 


Strlen 
Hash 





i Iter first Iter last Big table er a re 
b ) 除了 最 慢 的 版 本 以 外 的 所 有 版 本 
图 5-38 ”n-gram 频 度 计数 程序 的 各 个 版 本 的 剖析 结果 。 时 间 是 根据 程序 中 不 同 的 主要 操作 划分 的 


如 图 5-38a 所 示 ， 最 初 的 版 本 需要 3 分 钟 ， 大 多 数 时 间 花 在 了 排序 上 。 这 并 不 奇怪 ， 因 为 揪 
人 排序 有 二 次 的 运行 时 间 ， 而 程序 对 363 039 个 值 进行 排序 。 
在 下 一 个 版 本 中 ， 我 们 用 库 函 数 qsort 进行 排序 ， 这 个 函数 是 基于 快速 排序 算法 的 ， 运 行 
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时 间 为 O(nlogn)。 在 图 中 这 个 版 本 称 为 “Quicksort”。 更 有 效 的 排序 算法 使 花 在 排序 上 的 时 间 降 
低 到 可 以 忽略 不 计 ， 而 整个 运行 时 间 降 低 到 大 约 4.7 秒 。 图 5-38b 是 剩 下 各 个 版 本 的 时 间 ， 所 用 
的 比例 使 我 们 能 看 得 更 清楚 。 

改进 了 排序 ， 现 在 发 现 链表 扫描 变 成 了 瓶颈 。 想 想 这 个 低 效率 是 由 于 函数 的 递归 结构 引起 
的 ， 我 们 用 一 个 迭代 的 结构 替换 它 ， 显 示 为 “Iter first”。 今 人 奇怪 的 是 ， 运 行 时 间 增 加 到 了 大 约 
5.9 秒 。 根 据 更 近 一 步 的 研究 ， 我 们 发 现 两 个 链表 函数 之 间 有 一 个 细微 的 差别 。 递 归 版 本 将 新 元 
素 插 人 到 链表 尾部 ， 而 迭代 版 本 把 它们 揪 到 链表 头 部 。 为 了 使 性 能 最 大 化 ， 我 们 希望 频率 最 高 
的 n-gram 出 现在 链表 的 开始 处 。 这 样 一 来 ， 函 数 就 能 快速 地 定位 常见 的 情况 。 假 设 n-gram 在 
文档 中 是 均匀 分 布 的 ， 我 们 期 望 频 度 高 的 单词 的 第 一 次 出 现在 频 度 低 的 单词 之 前 。 通 过 将 新 的 
n-gram 插 和 人 尾部， 第 一 个 函数 倾向 于 按照 频 度 的 降序 排序 ， 而 第 二 个 函数 则 相反 。 因 此 我 们 创 
建 第 三 个 链表 扫描 函数 ， 它 使 用 迭代 ， 但 是 将 新 元 素 插 人 到 链表 的 尾部 。 使 用 这 个 版 本 ， 显 示 为 
“Iter last”， 时 间 降 到 了 大 约 4.2 秒 ， 比 递归 版 本 稍微 好 一 点 。 这 些 测量 说 明了 对 程序 做 实验 作为 
优化 工作 一 部 分 的 重要 性 。 开 始 时 ， 我 们 假设 将 递归 代码 转换 成 迭代 代码 会 改进 程序 的 性 能 ， 而 
没有 考虑 添加 元 素 到 链表 末尾 和 开头 的 差别 。 

接 下 来 ， 我 们 考虑 哈 希 表 的 结构 。 最 初 的 版 本 只 有 1021 个 桶 (通常 会 选择 桶 的 个 数 为 质数 ， 
以 增强 哈 希 函数 将 关键 字 均 匀 分 布 在 桶 中 的 能 力 )。 对 于 一 个 有 363 039 个 条 目的 表 来 说 ， 这 就 
意味 着 平均 负载 (load) 是 363039/1021=355.6。 这 就 解释 了 为 什么 有 那么 多 时 间 花 在 了 执行 链 
表 操 作 上 了 一 一 搜索 包括 测试 大 量 的 候选 n-gram。 它 还 解释 了 为 什么 性 能 对 链表 的 排序 这 么 敏 
感 。 然 后 ， 我 们 将 桶 的 数量 增加 到 了 199 999， 平均 负载 降低 到 了 1.8。 不 过 ， 很 奇怪 的 是 ， 整 体 
运行 时 间 只 下 降 到 3.9 秒 ， 差 距 只 有 0.3 秒 。 

进一步 观察 ， 我 们 可 以 看 到 ， 表 变 大 了 但 是 性 能 提高 很 小 ， 这 是 由 于 哈 希 函数 选择 的 不 好 。 
简单 地 对 字符 串 的 字符 编码 求 和 不 能 产生 一 个 大 范围 的 值 。 特 别 是 ， 一 个 字母 最 大 的 编码 值 是 
122， 因 而 个 字符 产生 的 和 最 多 是 122n。 在 文档 中 ， 最 长 的 bigram, “honorificabilitudinitatibus 
thou”， 的 和 也 不 过 是 3371， 所 以 ， 哈 和 希 表 中 大 多 数 桶 都 是 不 会 被 使 用 的 。 此 外 ， 可 交换 的 哈 希 
函数 ， 例 如 加 法 ， 不 能 对 一 个 字符 串 中 不 同 的 可 能 的 字符 顺序 做 出 区 分 。 例 如 ， 单 词 “rat” 和 
“tar” 会 产生 同样 的 和 。 

我 们 换 成 一 个 使 用 移 位 和 蜡 或 操作 的 哈 希 函 数 。 使 用 这 个 版 本 ， 显 示 为 “Better Hash”， 时 
间 下 降 到 了 0.4 秒 。 一 个 更 加 系统 化 的 方法 是 更 加 仔细 地 研究 关键 字 在 桶 中 的 分 布 ， 如 果 哈 希 函 
数 的 输出 分 布 是 均匀 的 ， 那 么 确保 这 个 分 布 接近 于 人 们 期 望 的 那样 。 

最 后 ， 我 们 把 运行 时 间 降 低 了 大 部 分 时 间 花 在 strlen 上 ， 而 大 多 数 对 strlen 的 调用 是 
作为 小 瑟 字母 转换 的 一 部 分 。 我 们 已 经 看 到 了 函数 lowerl 有 二 次 的 性 能 ， 特 别 是 对 长 字符 串 
来 说 。 这 篇 文档 中 的 单词 足够 短 ， 能 避免 二 次 性 能 的 灾难 性 的 结果 ; 最 长 的 bigram 只 有 32 个 字 
符 。 不 过 换 成 使 用 1owez2， 显 示 为 “Linear Lower” 得 到 很 好 的 性 能 ， 整 个 时 间 降 到 了 0.2 秒 。 

这 个 练习 说 明 ， 代 码 剂 析 有 助 于 将 一 个 简单 应 用 程序 所 需 的 时 间 从 将 近 3 分 钟 降低 到 1 秒 以 
下 。 齐 析 程 序 帮助 我 们 把 注意 力 集中 在 程序 最 耗 时 的 部 分 上 ， 同 时 还 提供 了 关于 过 程 调 用 结构 的 
有 用 信息 。 代 码 中 的 一 些 瓶 颈 ， 例 如 二 次 的 排序 沙 数 ， 很 容易 看 出 来 ; 而 其 他 的 ， 例 如 揪 入 到 链 
表 的 开始 还 是 结尾 ， 只 有 通过 仔细 的 分 析 才 能 看 出 。 

我 们 可 以 看 到 ， 齐 析 是 工具 箱 中 一 个 很 有 用 的 工具 ， 但 是 它 不 应 该 是 唯一 一 个 。 计 时 测量 不 
是 很 准确 ， 特 别 是 对 较 短 的 运行 时 间 (小 于 1 秒 ) 来 说 。 更 重要 的 是 ， 结 果 只 适用 于 被 测试 的 那 
些 特殊 的 数据 。 例 如 ， 如 果 在 由 较 少 数量 的 较 长 字符 串 组 成 的 数据 上 运行 最 初 的 函数 ， 我 们 会 发 
现 小 写字 母 转 换 函 数 才 是 主要 的 性 能 瓶 开 。 更 糟糕 的 是 ， 如 果 它 只 剖析 包含 短 单词 的 文档 ， 我 们 
可 能 永远 不 会 发 现 隐藏 着 的 性 能 瓶颈 ， 例 如 lowerl 的 二 次 性 能 。 通 常 ， 假 设 在 有 代表 性 的 数 
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据 上 运行 程序 ， 剂 析 能 帮助 我 们 对 典型 的 情况 进行 优化 ， 但 是 我 们 还 应 该 确保 对 所 有 可 能 的 情 
况 ， 程 序 都 有 相当 的 性 能 。 这 主要 包括 避免 得 到 糟糕 的 渐 近 性 能 〈asymptotic performance) 的 算 
法 (例如 插入 算法 ) 和 坏 的 编程 实践 〈 例 如 lowerl1 )。 

5.14.3 Amdahl 定律 
Gene Amdahl， 计 算 领域 的 先驱 之 一 ， 做 出 了 一 个 关于 提高 系统 一 部 分 性 能 的 效果 的 简单 但 

是 富有 洞察 力 的 观察 。 这 个 观察 现在 被 称 为 Amdahl 定律 。 其 主要 思想 是 当 我 们 加 快 系统 一 个 

部 分 的 速度 时 ， 对 系统 整体 性 能 的 影响 依赖 于 这 个 部 分 有 多 重要 和 速度 提高 了 多 少 。 考 虑 一 

个 系统 ， 在 其 中 执行 某 个 应 用 程序 需要 时 间 Tu。 假设 系统 的 某 个 部 分 需要 这 个 时 间 的 百分比 

为 w， 而 我 们 将 它 的 性 能 提高 到 了 天 倍 。 也 就 是 ， 这 个 部 分 原来 需要 时 间 a7T,js， 而 现在 需要 时 间 

(aZTia)/k。 因 此 ， 整 个 执行 时 间 会 是 

T=(1—o) Tat(aT a)/k 
=Tal(1—a)to/k] 

据 此 ， 我 们 可 以 计算 加 速 比 SETVT 为 : 

(1—a)+oa/k (5-4) 
作为 一 个 示例 ， 考 虑 这 样 一 种 情况 ， 系 统 原 来 占用 60% 时 间 (a=0.6) 的 部 分 被 提高 到 了 3 

信 〈( 厂 3)。 那 么 得 到 加 速 比 1/[0.4+0.6/3]=1.67。 因 此 ， 即 使 我 们 大 幅度 改进 了 系统 的 一 个 主要 部 

分 ， 净 加 速 比 还 是 很 小 。 这 就 是 Amdahl 定律 的 主要 观点 一 一 要 想 大 幅度 提高 整个 系统 的 速度 ， 

我 们 必须 提高 整个 系统 很 大 一 部 分 的 速度 。 

由 练习 题 5.13 假设 你 的 职业 是 卡车 司机 ， 你 运送 一 车 土豆 从 Idaho 的 Boise 到 Minnesota 的 
Minneapolis， 总 距离 为 2500 公里 。 估 计 在 速度 限制 以 内 你 开车 的 平均 时 速 为 100 公里 ， 整 个 行程 需 
要 25 小 时 。 

A. 你 在 新 闻 里 听 说 Montana 刚刚 取消 了 它 的 限 速 ， 这 段 路 程 有 1500 公里 。 你 的 卡车 可 以 开 到 每 小 时 
150 公里 。 你 这 次 行程 的 加 速 比 会 是 多 少 ? 

B. 你 可 以 在 www.fasttrucks.com 为 卡车 购买 一 个 新 的 涡轮 增 压 器 。 它 们 有 许多 样式 ， 不 过 想 开 得 越 快 ， 
花费 就 越 大 。 要 想 行 程 加 速 比 达 到 5/3， 你 必须 以 多 大 的 速度 通过 Montana ? 

区 弱 练习 题 5.14 ”公司 的 市 场 部 门 许诺 你 的 客户 下 一 版 软件 性 能 会 提高 一 倍 。 分 配给 你 的 任务 是 实现 这 个 
承诺 。 你 确定 只 能 改进 系统 80% 的 部 分 。 为 了 达到 整体 性 能 目标 ， 你 需要 将 这 个 部 分 提高 到 多 少 〈 也 
就 是 ,大 的 值 应 为 多 少 ) ? 

Amdahl 定律 的 一 个 有 趣 的 特殊 情况 是 考虑 将 上 设 为 w 的 效果 。 也 就 是 ， 我 们 能 够 找 出 系统 

的 某 个 部 分 ， 把 它 的 速度 提高 到 时 间 可 以 忽略 不 计 的 程度 。 那 么 得 到 

1 

~ do) (5-5) 

因此 ， 例 如 ， 如 果 我 们 能 够 将 系统 60% 的 部 分 速度 提高 到 它 所 需要 的 时 间接 近 于 0， 那 么 净 加 

速 比 也 仍然 只 为 1/0.4=2.5。 当 我 们 用 快速 排序 取代 插入 排序 时 ， 从 字典 程序 中 就 能 看 出 这 个 性 

能 。 最 开始 的 版 本 花费 它 177.57 秒 中 的 173.05 秒 来 进行 插入 排序 ， 得 到 a = 0.975。 使 用 快速 排 

序 ， 花 费 在 排序 上 的 时 间 变 得 可 以 忽略 不 计 ， 得 到 预测 的 加 速 比 为 39.3。 实 际 上 ， 实 际 测 出 的 加 

速 比 要 小 一 点 儿 : 173.05/4.72 = 37.6， 这 是 由 于 齐 析 测试 的 不 准确 性 造成 的 。 我 们 能 够 获得 大 的 

加 速 比 ， 这 是 因为 排序 占 到 了 整个 执行 时 间 的 一 个 非常 大 的 比例 。 | 
Amdahl 定律 描述 了 一 个 改进 任何 过 程 的 通用 原则 。 除 了 适用 于 提高 计算 机 系统 的 速度 之 外 ， 

它 还 能 指导 一 个 公司 试 着 降低 生产 剃 须 刀片 的 成 本 ， 或 是 指导 一 个 学 生 改 进 他 的 平均 绩 点 。 或 许 

它 在 计算 机 世界 里 最 有 意义 ， 在 计算 机 世界 中 ， 我 们 通常 将 性 能 提高 一 倍 或 更 多 。 只 有 通过 优化 
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系统 很 大 的 一 部 分 才能 获得 这 么 高 的 提高 率 。 
5.15 小结 


虽然 关于 代码 优化 的 大 多 数论 述 都 描述 了 编译 器 是 如 何 能 生成 高 效 代码 的 ， 但 是 应 用 程序 员 
有 很 多 方法 来 协助 编译 器 完成 这 项 任务 。 没 有 任何 编译 器 能 用 一 个 好 的 算法 或 数据 结构 代替 低 效 
率 的 算法 或 数据 结构 ， 因 此 程序 设计 的 这 些 方面 仍然 应 该 是 程序 员 主 要 关心 的 。 我 们 还 看 到 妨碍 
优化 的 因素 ， 例 如 存储 器 别名 使 用 和 过 程 调用 ， 严 重 限 制 了 编译 器 执行 大 量 优化 的 能 力 。 同 样 ， 
程序 员 必须 对 消除 这 些 妨 碍 优化 的 因素 负 主 要 的 责任 。 这 些 应 该 被 看 作 是 好 的 编程 习惯 的 一 部 
分 ， 因 为 它们 可 以 消除 不 必要 的 工作 。 

基本 级 别 之 外 调整 性 能 需要 一 些 对 处 理 器 微 体 系 结构 的 理解 ， 描 述 处 理 器 用 来 实现 它 的 指令 
集体 系 结构 的 底层 机 制 。 对 于 乱 序 处 理 器 的 情况 ， 只 需要 知道 一 些 关于 操作 、 延 迟 和 功能 单元 发 
射 时 间 的 信息 ， 就 能 够 基本 地 预测 程序 的 性 能 了 。 

我 们 研究 了 一 系列 技术 ， 包 括 循环 展开 、 创 建 多 个 累积 变量 和 重新 结合 ， 它 们 可 以 利用 现代 处 
理 器 提供 的 指令 级 并 行 。 随 着 对 优化 的 深入 ， 研 究 产生 出 的 汇编 代码 以 及 试 着 理解 机 器 是 如 何 执行 
计算 的 变 得 重要 起 来 。 确 认 由 程序 中 的 数据 相关 决定 的 关键 路 径 ， 收 获 良 多 。 我 们 还 可 以 根据 必须 
要 计算 的 操作 数量 ， 以 及 执行 这 些 操作 的 功能 单元 的 数量 和 发 射 时 间 ， 计 算 一 个 计算 的 吞吐 量 界限 。 

包含 条 件 分 支 或 与 存储 器 系统 复杂 交互 的 程序 ， 比 我 们 最 开始 考虑 的 简单 循环 程序 ， 更 难以 分 
析 和 优化 。 基 本 策略 是 使 分 支 更 容易 预测 ， 或 者 使 它们 很 容易 用 条 件数 据 传送 来 实现 。 我 们 还 必须 
注意 存储 和 加 载 操 作 。 将 数值 保存 在 局 部 变量 中 ， 使 得 它们 可 以 存放 在 寄存 器 中 ， 这 会 很 有 帮助 。 

当 处 理 大 型 程序 时 ， 将 注意 力 集中 在 最 耗 时 的 部 分 变 得 很 重要 。 代 码 剖 析 程序 和 相关 的 工具 
能 帮助 我 们 系统 地 评价 和 改进 程序 性 能 。 我 们 描述 了 GPROF， 一 个 标准 的 Unix 削 析 工具 。 还 有 
更 加 复杂 完善 的 剖析 程序 可 用 ， 例 如 Intel 的 VTUNE 程序 开发 系统 ， 和 VALGRIND，Linux 系 
统 基本 上 都 有 。 这 些 工 具 可 以 在 过 程 级 分 解 执行 时 间 ， 佑 计 程 序 每 个 基本 块 〈basic block) 的 性 
能 。( 基 本 块 是 内 部 没有 控制 转移 的 指令 序列 ， 因 此 基本 块 总 是 整个 被 执行 的 。) 

Amdahl 定律 提供 了 一 个 简单 但 是 很 有 力 的 看 法 ， 通 过 只 改进 系统 一 部 分 获得 性 能 收益 。 收 
益 既 依赖 于 我 们 对 这 个 部 分 的 提高 程度 ， 也 依赖 于 这 个 部 分 原来 在 整个 时 间 中 所 占 的 比例 。 


参考 文献 说 明 


我 们 的 关注 点 是 从 程序 员 的 角度 描述 代码 优化 ， 展 示 如 何 使 书写 的 代码 ， 能 够 使 编译 器 更 容 
易 产 生 高 效 的 代码 。Chellappa、Franchetti 和 Piischel 的 扩展 的 论文 [19] 采用 了 类 似 的 方法 ， 但 
关于 处 理 器 的 特性 描述 得 更 详细 。 

有 许多 著作 从 编译 器 的 角度 描述 了 代码 优化 ， 形 式 化 描述 了 编辑 器 可 以 产生 更 有 效 代码 的 方 
法 。Muchnick 的 著作 被 认为 是 最 全 面 的 [76]。Wadleigh 和 Crawford 的 关于 软件 优化 的 著作 [114] 
覆盖 了 一 些 我 们 已 经 谈 到 的 内 容 ， 不 过 它 还 描述 了 在 并 行 机 器 上 获得 高 性 能 的 过 程 。Mahlke 等 
人 的 一 篇 比较 早期 的 论文 [71]， 描 述 了 几 种 为 编译 器 开发 的 将 程序 映射 到 并 行 机 器 上 的 技术 ， 它 
们 是 如 何 能 够 被 改造 成 利用 现代 处 理 器 的 指令 级 并 行 的 。 这 篇 论文 覆盖 了 我 们 讲 过 的 代码 变换 ， 
包括 循环 展开 、 多 个 累积 变量 (他 们 称 之 为 累积 变量 扩展 (accumulator variable expansion)) 和 
重新 结合 (他 们 称 之 为 树 高 度 减 少 (tree height reduction ) )。 

我 们 对 乱 序 处 理 器 的 操作 的 描述 相当 简单 和 抽象 。. 可 以 在 高 级 计算 机 体系 结构 教科 书 中 找到 
对 通用 原则 更 完整 的 描述 ， 例 如 Hennessy 和 Patterson 的 著作 [49， 第 2 一 3 章 ]。Shen 和 Lipasti 
的 书 [96] 提供 了 对 现代 处 理 器 设计 深入 的 处 理 。 : 

大 多 数 关 于 计算 机 体系 结构 的 书 都 讲述 了 Amdahl 定律 。Hennessy 和 Patterson 的 著作 [49， 
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第 1 章 ] 主要 关心 的 是 量化 的 系统 评价 ， 提 供 了 对 这 个 主题 相当 好 的 讲解 。 
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**5.15 假设 我 们 想 编写 一 个 计算 两 个 向 量 X 和 YY 内 积 的 过 程 。 这 个 函数 的 一 个 抽象 版 本 对 整数 、 单 精度 和 
双 精 度数 据 ， 在 x86-64 上 CPE 等 于 16 ~ 17， 在 IA32 上 CPE 等 于 26 ~ 29。 通 过 进行 与 我 们 将 抽 
象 程序 combinel 变换 为 更 有 效 的 combine4 相同 类 型 的 变换 ， 得 到 如 下 代码 : 


| /* Accumulate in temporary */ 

2 void inner4(vec_ptr x, vec_ptr y, data_t *dest) 
3 攻 

4 long int i,; 

3 int length = vec_length (x); 

6 data_t *xdata = get_vec_start (x); 

2 data_t *ydata = get_vec_start(y); 

8 data_t sum = (data_t) 0; 

8 


10 for (i = 0; i < length; i++) { 


11 sum = sum + xdata[i] * ydata[i] ; 
12 , 

13 *dest = SuUm ; 

14 J} 


测试 显示 对 于 整数 和 浮 点 数据 ， 这 个 函数 的 对 于 数据 关 型 oat， 内 循环 的 x86-64 
汇编 代码 如 下 所 示 : 
innerd; datat = float 


xdata in krbr, pdata in prax, limit in Wrcx, 


i in prdx, Sum in Wxmmi 


| .L87: 二 . loop: 

2 movss (Xrbx,%rdx,4), %xmmO Goldieati 

3 mulss  (%rax,%rdx,4), %xmmO- Multipily by ydata[i] 
4 addss %xmmO0, %xmmi Add to sunm 

5 addq $1, %rdx Ee Increnment i 

6 cmpq hrcx, hrdx Compare i:1limit 

7 jl .L87 If <, goto loop 


假设 功能 单元 的 特性 如 图 5-12 所 示 。 
A. 按照 图 5-13 和 5.14 的 风格 ， 画 出 这 个 指令 序列 会 如 何 被 译 码 成 操作 ， 并 给 出 它们 之 间 的 数据 相 
关 如 何 形成 一 条 操作 的 关键 路 径 。 
B. 对 于 数据 类 型 loat， 这 条 关键 路 径 决 定 的 CPE 的 下 界 是 什么 ? 
C. 假设 对 于 整数 代码 也 有 类 似 的 指令 序列 ， 对 于 整数 数据 的 关键 路 径 决定 的 CPE 的 下 界 是 什么 ? 
D. 请 解释 两 个 浮 点 版 本 的 CPE 怎 么 会 都 是 3.00， 即 使 乘法 操作 需要 4 或 者 5 个 时 钟 周期 。 
* 5.16 ”编写 习题 5.15 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 3 次 循环 展开 。 
对 于 x86-64， 我 们 对 这 个 展开 的 版 本 的 测试 得 到 ， 对 整数 数据 CPE 为 2.00， 而 对 单 精度 和 双 精 度数 
据 CPE 仍然 为 3.00。 
A. 解释 为 什么 任何 版 本 的 内 积 过 程 都 不 能 达到 此 2.00 更 小 的 CPE 了 。 
B. 解释 为 什么 对 浮 点 数据 的 性 能 不 会 通过 循环 展开 而 得 到 提高 。 
*5.17” 编写 习题 5.15 中 描述 的 内 积 过 程 的 一 个 版 本 ,使 用 3 次 循环 展开 和 3 个 并 行 累积 变量 。 对 于 
X86-64， 我 们 对 这 个 函数 的 测试 得 到 对 所 有 类 型 的 数据 CPE 都 等 于 2.00。 
A. 什么 因素 制约 了 性 能 达到 CPE 等 于 2.00 ? , 
B. 请 解释 为 什么 这 个 版 本 对 于 整数 在 IA32 上 CPE 等 于 2.67， 比 只 做 4 路 循环 展开 时 的 CPE 等 于 


* 5.18 


** 5.19 


* 5.20 


* 5.21 
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2.33 还 要 差 。 
编写 习题 5.15 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 3 次 循环 展开 和 和 重新 结合 以 使 得 更 高 的 并 行 度 成 
为 可 能 。 我 们 对 这 个 函数 的 测试 得 到 对 所 有 类 型 的 数据 ， 在 x86-64 上 CPE 都 等 于 2.00， 在 IA32 上 
CPE 都 等 于 2.33。 

库 函 数 memset 的 原型 如 下 : 


void *memset (void *s, int c, size._t 了) ; 


这 个 函数 将 从 s 开始 的 nn 个 字 节 的 存储 器 区 域 都 填充 为 c 的 低位 字 节 。 例 如 ， 通 过 将 参数 c 设置 为 
0， 可 以 用 这 个 函数 来 对 一 个 存储 器 区 域 清 零 ， 不 过 用 其 他 值 也 是 可 以 的 。 
下 面 是 memset 最 直接 的 实现 : 


1 /*+ Basic implementation of memset */ 

2 void *basic_memset (void *s, int c, size_t DT) 
$4 斌 

4 size_t cnt = 0; 

5 unsigned char *schar = s; 

6 While (cnt < n) { 

7 *schar++ = (unsigned char) c; 

8 cnt++; 

9 } 

0 
] 


return S ; 


1 

1 } 

实现 该 函数 一 个 更 有 效 的 版 本 ， 使 用 数据 类 型 为 unsigned long 的 字 来 装 下 4 个 (对 于 IA32) 

或 者 8 个 (对 于 x86-64) 个 c， 然 后 用 字 级 的 写 遍 历 目 标 存储 器 区 域 。 你 可 能 发 现 增加 额外 的 循环 

展开 会 有 所 帮助 。 在 Intel Core i7 机 器 上 ， 我 们 能 够 把 CPE 从 直接 实现 的 2.00 降低 到 对 于 IA32 为 

0.25， 和 对 x86-64 为 0.125， 每 个 周期 写 4 个 或 者 8 个 字 节 。 

这 里 是 一 些 额外 的 指导 原则 。 在 此 ， 假设 天 表示 你 运行 程序 的 机 器 上 的 sizeof(unsigned 1ong) 

的 值 。 

。 你 不 可 以 调用 任何 库 函 数 。 

。 你 的 代码 应 该 对 任意 nn 的 值 都 能 工作 ， 包 括 当 它 不 是 KK 的 倍数 的 时 候 。 你 可 以 用 类 似 于 使 用 循环 
展开 时 完成 最 后 几 次 迭代 的 方法 做 到 这 一 点 。 

。 你 写 的 代码 应 该 做 到 无 论 KK 的 值 是 多 少 ， 都 能 够 正确 编译 和 运行 。 使 用 操作 sizeof 来 做 到 这 一 点 。 

。 在 某 些 机 器 上 ， 未 对 齐 的 写 可 能 比 对 齐 的 写 慢 很 多 。( 首 某 些 非 x86 机 器 上 ， 未 对 齐 的 写 甚至 可 能 
人 开始 时 直到 目的 地 址 是 羔 的 倍数 时 ， 使 用 字 节 级 的 写 ， 然 后进 

行 字 级 的 写 , (如 果 需 要 ) 最 后 采用 用 字 节 级 的 写 。 

* 注意 cnt 足够 小 以 至 于 一 些 循环 上 界 变 成 负数 的 情况 。 对 于 涉及 sizeof 运算 符 的 表达 式 ， 可 以 
用 无 符号 运算 来 执行 测试 。( 参 见 2.2.8 节 和 家 庭 作 业 2.72。) 

在 练习 题 5.5 和 5.6 中 我 们 考虑 了 多 项 式 求 值 的 任务 ， 既 有 直接 求 值 ， 也 有 用 Horner 方法 求 值 。 试 

着 用 我 们 讲 过 的 优化 技术 写 出 这 个 函数 更 快 的 版 本 ， 这 些 技术 包括 循环 展开 、 并 行 累 积 和 重新 结合 

你 会 发 现 有 很 多 不 同 的 方法 可 以 将 Horner 方法 和 直接 求 值 与 这 些 优化 技术 混合 起 来 。 

理想 状况 下 ， 你 能 达到 的 CPE 应 该 接近 于 你 的 机 器 上 连续 浮 点 加 法 和 乘法 之 间 的 周期 数 〈 通 常 是 

1)。 至 少 ， 你 应 该 能 够 达到 一 个 小 于 你 的 机 器 的 浮 点 加 法 延迟 的 CPE。 

在 练习 题 5.12 中 ， Ye aiw 这 是 由 该 机 器 上 浮 点 加 法 的 延 次 决定 

的 。 人 简单 的 循环 展开 没有 改进 什么 。 

使 用 循环 展开 和 重新 结合 的 组 合 ， 写 出 求 前 置 和 的 代码 ， 能 够 得 到 一 个 小 于 你 机 器 上 浮 点 加 法 延迟 
的 CPE。 例 如 ， 我 们 使 用 2 次 循环 展开 的 版 本 每 次 迭代 需要 3 个 加 法 ， 而 使 用 3 次 循环 展开 的 版 本 
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需要 5 个 。 z 
“5.22 假设 给 了 你 一 个 任务 ， 要 提高 一 个 由 3 个 部 分 组 成 的 程序 的 性 能 。 部 分 A 需要 整个 运行 时 间 的 
20%， 部 分 B 需要 30%， 而 部 分 C 需要 50%。 你 确定 1000 美元 能 将 部 分 B 的 速度 提高 到 3.0 倍 ， 


也 可 以 将 部 分 C 的 速度 提高 到 1.5 倍 。 哪 种 选择 会 使 性 能 最 大 化 ? 


练习 题 答案 
练习 题 5.1 这 个 问题 说 明了 存储 器 别名 使 用 的 某 些 细微 的 影响 。 
正如 下 面 加 了 注释 的 代码 所 示 ， 结 果 会 是 将 xp 处 的 值 设置 为 0 : 


4 *Xxp = 半 XP + *xp; /* 2x */ 
5 *xp = *Xxp 一 *Xxp; /* 2x~2x = 0 */ 
6 *xp = *Xxp 一 *xp; /* 0-0 = 0 */ 


这 个 示例 说 明 我 们 关于 程序 行为 的 直 党 往往 会 是 错误 的 。 我 们 自然 地 会 认为 xp 和 yp 是 不 同 的 情况 ， 
却 忽略 了 它们 相等 的 可 能 性 。 错 误 通常 源 自 程序 员 没 想到 的 情况 。 
练习 题 5.2 这 个 问题 说 明了 CPE 和 绝对 性 能 之 间 的 关系 。 可 以 用 初等 代数 解决 这 个 问题 。 我 们 发 现 对 于 
n 忆 2， 版 本 1 最 快 。 对 于 3 < n<<7, 版 本 2 最 快 ， 而 对 于 n 之 8， 版 本 3 最 快 。 
练习 题 5.3 这 是 个 简单 的 练习 ， 但 是 认识 到 一 个 for 循环 的 4 个 语句 (初始 化 、 测 试 、 更 新 和 循环 体 ) 


执行 的 次 数 是 不 同 的 很 重要 。 





练习 题 5.4 这 段 汇编 代码 展示 了 GCC 发 现 的 一 个 很 聪明 的 优化 机 会 。 要 更 好 地 理解 代码 优化 的 细微 之 
处 ， 仔 细 研 究 这 段 代码 是 很 值得 的 。 

A. 在 没 经 过 优化 的 代码 中 ， 寄 存 器 %xmm0 简单 地 被 用 作 临 时 值 ， 每 次 循环 迭代 中 都 会 设置 和 使 用 。 
在 经 过 更 多 优化 的 代码 中 ， 它 被 使 用 的 方式 更 像 combine4 中 的 变量 x， 累 积 向 量 元 素 的 乘积 。 不 过 ， 与 
combine4 的 区 别 在 于 每 次 迭代 第 二 条 movss 指令 都 会 更 新 位 置 dest。 

我 们 可 以 看 到 ， 这 个 优化 过 的 版 本 运行 起 来 很 像 下 面 的 C 代码 : 


/* Make sure dest updated on each iteration */ 
void combine3w(vec_ptr v, data_t *dest) 
{ 

1ong int i; 

long int length = vec_length(v); 

data_t *data = get_vec_start(v); 

data_t acc = IDENT ; 


for (i = 0; i < length; i++) { 
acc = acc OP datafi]; 
*dest = acc; 


} 


二 
NN 人 OO 0 


13 } 


B.combine3 的 两 个 版 本 有 相同 的 功能 ， 甚 至 于 相同 的 存储 器 别名 使 用 。 
C. 这 个 变换 可 以 不 改变 程序 的 行为 ， 因 为 除了 第 一 次 和 迭代， 每 次 迭代 开始 时 从 dest 读 出 的 值 和 
前 一 次 迭代 最 后 写 入 到 这 个 寄存 器 的 值 是 相同 的 。 因 此 ， 合 并 指令 可 以 简单 地 使 用 在 循环 开始 时 就 已 经 


在 %xmm0 中 的 值 。 
练习 题 5.5 多项式 求 值 是 解决 许多 问题 的 核心 技术 。 例 如 ， 多 项 式 函 数 常 常用 作对 数学 库 中 三 角 函 数 求 近 


似 值 。 


莫 5 便 人 化 租 序 性 能 。 379 


A. 这 个 函数 执行 27 个 乘法 和 nn 个 加 法 。 和 

B. 我 们 可 以 看 到 ， 这 里 限制 性 能 的 计算 是 反复 地 计算 表达 式 xpwr = x * xpwr。 这 需要 一 个 双 精 度 
浮 点 数 乘法 (5 个 时 钟 周期 )， 并 且 直到 前 一 次 迭代 完成 ， 下 一 次 迭代 的 计算 才能 开始 。 两 次 连续 的 和 迭代 之 
间 ， 对 result 的 更 新 只 需要 一 eas 
练习 题 5.6 ”这 道 题 说 明了 最 小 化 一 个 计算 中 的 操作 数量 不 一 定 会 提高 它 的 性 能 。 

A. 这 个 函数 执行 n nn. 是 原始 函数 poly 中 乘法 数量 的 一 半 。 

B. 我 们 可 以 看 到 ， 这 里 的 性 能 限制 计算 是 反复 地 计算 表达 式 result =.a[il + x * result。 从 
来 自 上 一 次 迭代 的 result 的 值 开始 ， 我 们 必须 先 把 它 乘 以 x〈S 个 时 钟 周期 )， 然 后 把 它 加 上 a[i] (3 个 
时 钟 周期 )， 然 后 得 到 本 次 迭代 的 值 。 因 此 ， 每 次 迭代 造成 了 最 小 延迟 时 间 8 个 周期 ， 正 好 等 于 我 们 测量 到 
的 CPE。 

C. 虽然 函数 poly 中 每 次 迭代 需要 两 个 乘法 ， 而 不 是 一 个 ， 但 是 只 有 一 条 乘法 是 在 每 次 迭代 的 关键 路 
径 上 出 现 。 | 
练习 题 5.7 下 面 的 代码 直接 遵循 了 我 们 对 次 展开 一 个 循环 所 阅 述 的 规则 ; 、 


1 void unroll5(vec_ptr v, data_t *dest) 
> 

3 long int i; 

4 long int length = vec _length(v); 

5 long int limit = length-4; 

6 data_t *data = get_vec_start(v); 

7 data_t acc = IDENT ; 

8 

9 /* Combine 5 elements at a time */ 
10 for (i = 0; i < limit; i+=5) { 
11 acc = acc OP data[ij] OP datal[i+1]; 
12 acc = acc OP data[i+2] OP data[i+3] ; 
13 acc = acc OP data[i+4]; 

14 } 

15 

16 /* Finish any remaining elements */ 
17 for (; i < length; i++) { 

18 acc = acc OP datal[il]; 

19 } | 

20 *dest = acc; 

21 } 


练习 题 5.8 se 小 小 ee ee 
图 5-39 画 出 了 该 函数 一 
需要 按照 顺序 计算 ， ss 的 新 值 。 与 关键 路 径 操作 并 行 地 计算 。 对 

于 一 个 关键 路 径 上 有 c 个 操作 的 循环 ， 每 次 迭代 需要 最 少 5c 个 时 钟 周期 ， 会 计算 出 3 个 元 素 的 乘积 ， 得 到 
CPE 的 下 界 5c/3。 也 就 是 说 ，Al 的 下 界 为 5.00，A2 和 AS 的 为 3.33, 而 A3 和 A4 的 为 1.67。 





Al: (9 A2: a tae A3: 2s A4: ed A5: rr 
2 人 | A I A 1 | 人 1 兴 仙 P| | 2 2 人 人 7 





~ 


图 5-39 ”对 于 练习 题 5.8 中 各 各 清 况 和 法 操作 之 问 的 数据 相关 
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在 Intel Core i7 上 运行 这 些 函 数 ， 确 实 得 到 Al 的 CPE 为 5.00，A3 和 A4 的 为 1.67。 出 于 某 些 原因 ， 
A2 和 As 的 CPE 只 有 3.67， 表 明 这 两 个 函数 每 次 欠 代 需要 11 个 时 钟 周期 ， 而 不 是 预测 的 10 个 。 
练习 题 5.9 这 道 题 又 说 明了 编码 风格 上 的 小 变化 能 够 让 编译 器 更 容易 地 察 党 到 使 用 条 件 传送 的 机 会 : 
While (itl<ng&g i2 < Dn) 
int vi = Srcl[il] ; 
int v2 = src2[i2]; 
Int takel = vi < v2; 
dest [id++] = takel ?了 vi : v2; 
il += takel; 
i2 += (1-takel1); 
} 、 
对 于 这 个 版 本 的 代码 ， 我 们 测量 到 CPE 大 约 为 11.50， 比 原始 的 CPE 17.50 有 了 明显 的 提高 。 
练习 题 5.10 这 道 题 要 求 你 分 析 一 个 程序 中 潜在 的 加 载 一 存储 相互 影响 。 
A. 对 于 0<i< 998， 它 要 将 每 个 元 素 a[i] 设置 为 itl。 
B. 对 于 1<i< 999， 它 要 将 每 个 元 素 a[i] 设置 为 0。 
C. 在 第 二 种 情况 中 ， 每 次 迭代 的 加 载 都 依赖 于 前 一 次 迭代 的 存储 结果 。 因 此 ， 在 连续 的 迭代 之 间 有 写 
/ 读 相 关 。 有 一 个 很 有 趣 的 现象 值得 注意 ， 它 的 CPE 等 于 5.00， 比 对 函数 write _read 的 示例 B 测量 到 的 
CPE 小 1。 这 是 由 于 write_read 在 存储 这 个 值 之 前 先 增加 了 它 ， 这 需要 一 个 时 钟 周期 。 
D. 得 到 的 CPE 等 于 2.00， 与 示例 A 的 相同 ， 这 是 因为 存储 和 后 续 的 加 载 之 间 没 有 相关 。 
练习 题 5.11 我 们 可 以 看 到 ， 这 个 函数 在 连续 的 迭代 之 间 有 写 / 读 相关 一 一 一 次 迭代 中 的 目的 值 p[i] 与 
下 一 次 迭代 中 的 源 值 p[i-1] 相同 。 
练习 题 5.12 下 面 是 对 这 个 函数 的 一 个 修改 版 本 : 


void psumia(float a[], float p[], long int n) 


1 

2 

3 long int i; 

4 /* last_val holds pl[li-1]; val holds p[i] */ 
5 float last_val, val; 

6 last_val = p[0] = a[0]; 

7 for (i = 1; i < n; i++) { 

8 


val = last_val + a[i]; 
9 pli] = val; 
10 last_val = val; 
11 } 
12 3 


我 们 引入 了 局 部 变量 last_val。 在 迭代 i 的 开始 ，last _val 保存 着 p[i-1] 的 值 。 然 后 我 们 计算 
val 为 p[i] 的 值 ， 也 是 last_val 的 新 值 。 
这 个 版 本 编译 得 到 如 下 汇编 代码 : 


psunmila. a in Wrdi, p in %rsi, i in %rax, cnt in %rdx, last_val in hxmmO 


1 .L18: loop: 

2 addss (%rdi ,%rax,4), %xmmO last_val = val = last_val + afi] 

3 movss  %hxmm0O, (%rsi,%hrax,4) Store val in p[i] 

4 addq $1, praX Increment i 

5 cmpq rax, %rdx Compare cnt:i 

6 jg .L18 IF >, goto lo0p 

这 段 代码 将 last_val 保存 在 %xmm0 中 ， 避 免 了 需要 从 存储 器 中 读 出 P[i-1]， 因 而 消除 了 Psuml 
中 看 到 的 写 / 读 相 关 。 


练习 题 5.13 ”这 个 问题 说 明了 Amdahl 定律 不 仅仅 只 适用 于 计算 机 系统 。 
A. 按照 等 式 (5-4)， 我 们 有 a= 0.6 和 大 = 1.5。 更 直观 地 说 ， 穿 过 Montana 行驶 1500 公里 需要 10 个 小 
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时 ， 而 剩 下 的 行程 也 需要 10 个 小 时 。 这 会 得 到 加 速 比 为 25/(10+10)=1.25。 

B. 按照 等 式 (5-4)， 我 们 有 a= 0.6， 而 我 们 需要 S=5/3， 根 据 这 些 可 以 解 出 Xk。 更 直观 地 说 ， 为 了 使 行 
程 加 速 5/3， 我 们 必须 将 整个 时 间 降 低 到 15 个 小 时 。Montana 之 外 的 部 分 仍然 需要 10 个 小 时 ， 所 以 必须 在 
5 个 小 时 内 通过 Montana。 这 要 求 行驶 速度 为 每 小 时 300 公里 ， 对 于 卡车 来 说 实在 是 太 快 了 ! 
练习 题 5.14 通过 练习 一 些 示 例 是 理解 Amdahl 定律 的 最 好 方法 。 这 个 例子 要 求 你 从 一 个 不 同 寻常 的 角度 
来 看 等 式 (5$-4)。 这 道 题 是 这 个 等 式 的 一 个 简单 应 用 。 给 定 5S=2 和 o=0.8， 而 你 必须 解 出 上 : 

0 
(1—0.8)+0.8/k 
0.4+1.6/k=1.0 
k=2.67 


第 6 章 | 
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”到 目前 为 止 ， 在 对 系统 的 研究 中 ， 我 们 依赖 于 一 个 简单 的 计算 机 系统 模型 ，CPU 执行 指令 ， 
而 存储 器 系统 为 CPU 存放 指令 和 数据 。 在 简单 模型 中 ， 存 储 器 系统 是 一 个 线性 的 字 节 数组 ， 而 
CPU 能 够 在 一 个 常数 时 间 内 访问 每 个 存储 器 位 置 。 虽 然 迄 今 为 止 这 都 是 一 个 有 效 的 模型 ， 但 是 
它 没有 反映 现代 系统 实际 工作 的 方式 。 

实际 上 ， 存 储 器 系统 (memory system) 是 一 个 具有 不 同 容 量 、 成 本 和 访问 时 间 的 存储 设 
备 的 层次 结构 。CPU 寄存 器 保存 着 最 常用 的 数据 。 靠 近 CPU 的 小 的 、 快 速 的 高 速 缓存 存储 器 
(cache memory) 作为 一 部 分 存储 在 相对 慢 速 的 主 存储 器 (main memory， 简 称 主 存 〉 中 的 数据 和 
指令 的 缓冲 区 域 。 主 存 暂 时 存放 存储 在 容量 较 大 的 、 慢 速 磁 盘 上 的 数据 ， 而 这 些 磁盘 常常 又 作为 
存储 在 通过 网 络 连 接 的 其 他 机 器 的 磁盘 或 磁带 上 的 数据 的 缓冲 区 域 。 

存储 器 层次 结构 是 可 行 的 ， 这 是 因为 与 下 一 个 更 低层 次 的 存储 设备 相 比 来 说 ， 一 个 编写 良好 
的 程序 倾向 于 更 频繁 地 访问 某 一 个 层次 上 的 存储 设备 。 所 以 ， 下 一 层 的 存储 设备 可 以 更 慢 速 一 
点 ， 也 因此 可 以 更 大 ， 每 个 位 更 便宜 。 整 体 效 果 是 一 个 大 的 存储 器 池 ， 其 成 本 与 层次 结构 底层 最 
便宜 的 存储 设备 相当 ， 但 是 却 以 接近 于 层次 结构 顶部 存储 设备 的 高 速率 向 程序 提供 数据 。 

作为 一 个 程序 员 ， 你 需要 理解 存储 器 层次 结构 ， 因 为 它 对 应 用 程序 的 性 能 有 着 巨大 的 影 
啊 。 如 果 你 的 程序 需要 的 数据 是 存储 在 CPU 寄存 器 中 的 ， 那 么 在 指令 的 执行 期 间 ， 在 零 个 周期 
内 就 能 访问 到 它们 。 如 果 存 储 在 高 速 缓存 中 ， 需 要 1 ~ 30 个 周期 。 如 果 存 储 在 主 存 中 ， 需 要 
50 一 200 个 周期 。 而 如 果 存 储 在 磁盘 上 ， 需 要 大 约 几 千 万 个 周期 ! 

这 里 就 是 计算 机 系统 中 一 个 基本 而 持久 的 思想 : 如 果 你 理解 了 系统 是 如 何 将 数据 在 存储 器 层 
次 结构 中 上 上 下 下 移动 的 ， 那 么 你 就 可 以 编写 你 的 应 用 程序 ， 使 得 它们 的 数据 项 存储 在 层次 结构 
中 较 高 的 地 方 ， 在 那里 CPU 能 更 快 地 访问 到 它们 。 

这 个 思想 围绕 着 计算 机 程序 的 一 个 称 为 局 部 性 (locality) 的 基本 属性 。 具 有 良好 局 部 性 的 程 
序 倾向 于 一 次 又 一 次 地 访问 相同 的 数据 项 集合 ， 或 是 倾向 于 访问 邻近 的 数据 项 集合 。 具 有 良好 局 
部 性 的 程序 比 局 部 性 差 的 程序 更 多 地 倾向 于 从 存储 器 层次 结构 中 较 高 层次 处 访问 数据 项 ， 因 此 运 
行 得 更 快 。 例 如 ， 不 同 的 矩阵 乘法 核心 程序 执行 相同 数量 的 算术 操作 ， 但 是 有 不 同 程度 的 局 部 
性 ， 它 们 的 运行 时 间 可 以 相差 20 倍 ! 

在 本 章 中 ， 我 们 会 看 看 基本 的 存储 技术 (SRAM 存储 器 、DRAM 存储 器 、ROM 存储 器 和 
旋转 的 和 固态 的 硬盘 ) 并 描述 它们 是 如 何 被 组 织 成 层次 结构 的 。 特 别 地 ， 我 们 将 注意 力 集中 在 
高 速 缓存 存储 器 上 ， 它 是 作为 CPU 和 主 存 之 间 的 缓存 区 域 ， 因 为 它们 对 应 用 程序 性 能 的 影响 最 
大 。 我 们 向 你 展示 如 何 分 析 C 程序 的 局 部 性 ， 而 且 我 们 还 介绍 改进 你 的 程序 中 局 部 性 的 技术 。 
你 还 会 学 到 一 种 描绘 某 台 机 器 上 存储 器 层次 结构 的 性 能 的 有 趣 方法 ， 称 为 “存储 器 山 ”(memory 
mountain)， 它 给 出 的 读 访问 时 间 是 局 部 性 的 一 个 函数 。 


6.1 ”存储 技术 


计算 机 技术 的 成 功 很 大 程度 上 源 自 于 存储 技术 的 巨大 进步 。 早 期 的 计算 机 只 有 几 千 字 节 的 随 
机 访问 存储 器 。 最 早 的 IBM PC 甚至 没有 硬盘 。1982 年 引入 的 IBM PC-XT 有 10M 字 节 的 磁盘 。 
到 2010 年 ， 主 流 机 器 已 有 150 000 倍 于 PC-XT 的 磁盘 存储 ， 而 且 磁 盘 的 容量 以 每 两 年 加 倍 的 速 
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度 增长 。 
6.1.1 随机 访问 存储 器 

随机 访问 存储 器 (Random-Access Memory，RAM) 分 为 两 类 : 静态 的 和 动态 的 。 静 态 
RAM (SRAM) 比 动态 RAM (DRAM) 更 快 ， 但 也 贵 得 多 。SRAM 用 来 作为 高 速 缓存 存 
储 器 ， 既 可 以 在 CPU 芯片 上 ， 也 可 以 在 片 下 。DRAM 用 来 作为 主 存 以 及 图 形 系 统 的 帧 缓冲 
区 。 典 型 地 ， 一 个 桌面 系统 的 SRAM 不 会 超过 几 兆 字 节 ， 但 是 DRAM 却 有 几 百 或 几 千 兆 
字 节 。 

1. 静态 RAM 

SRAM 将 每 个 位 存储 在 一 个 双 稳 态 的 (bistable) 存储 器 单元 里 。 每 个 单元 是 用 一 个 六 唱 
体 管 电路 来 实现 的 。 这 个 电路 有 这 样 一 个 属性 ， 它 可 以 无 限期 地 保持 在 两 个 不 同 的 电压 配置 
(configuration) 或 状态 (state) 之 一 。 其 他 任何 状态 都 是 不 稳定 的 一 一 从 不 稳定 状态 开始 ， 
电路 会 迅速 地 转移 到 两 个 稳定 状态 中 的 一 个 。 这 样 一 个 存储 器 单元 类 似 于 图 6-1 中 画 出 的 倒转 的 
钟 摆 。 

当 钟 摆 倾 斜 到 最 左边 或 最 右边 时 ， 它 是 稳定 的 。 在 其 他 任何 位 置 ， 钟 摆 都 会 倒 回 一 边 
或 为 一 边 。 原 则 上 ， 钟 摆 也 能 在 垂直 的 位 置 无 限期 地 保持 平衡 ， 但 是 这 个 状态 是 亚 稳 态 的 
(metastable) 一 一 最 细微 的 扰 劲 也 能 使 它 倒 下 ， 而 且 一 旦 倒 下 就 永远 不 会 再 恢复 到 垂直 的 位 置 。 

由 于 SRAM 存储 器 单元 的 双 稳 态 特 性 ， 只 要 有 电 ， 它 就 会 永远 地 保持 它 的 值 。 即 使 有 干扰 ， 





图 6-1 倒转 的 钟 摆 。 同 SRAM 单元 一 样 ， 钟 摆 只 有 两 个 稳定 的 配置 或 状态 


例如 电子 噪音 ， 来 扰乱 电压 ， 当 干扰 消除 时 ， 电 路 就 会 恢复 到 稳定 值 。 

2. 动态 RAM 

DRAM 将 每 个 位 存储 为 对 一 个 电容 的 充电 。 这 个 电容 非常 小 ， 通 常 只 有 大 约 30 毫 微微 法 拉 
(femtofarad) 一 一 30X10… 法 拉 。 不 过 ， 回 想 一 下 法 拉 是 一 个 非常 大 的 计量 单位 。DRAM 存储 
器 可 以 制造 得 非常 密集 一 -每 个 单元 由 一 个 电容 和 一 个 访问 晶体 管 组 成 。 但 是 ， 与 SRAM 不 同 ， 
DRAM 存储 器 单元 对 干扰 非常 敏感 。 当 电容 的 电压 被 扰乱 之 后 ， 它 就 永远 不 会 恢复 了 。 暴 露 在 
光线 下 会 导致 电容 电压 改变 。 实 际 上 ， 数 码 照 相机 和 摄像 机 中 的 传感器 本 质 上 就 是 DRAM 单元 
的 阵列 。 

很 多 原因 会 导致 漏电 ， 使 得 DRAM 单元 在 10 ~ 100 毫秒 时 间 内 失去 电荷 。 幸 运 的 是 ， 计 算 
机 运行 的 时 钟 周 期 是 以 纳 秒 来 衡量 的 ， 这 个 保持 时 间 相 当地 长 。 存 储 器 系统 必须 周期 性 地 通过 读 
出 ， 然 后 重 写 来 刷新 存储 器 的 每 一 位 。 有 些 系 统 也 使 用 纠 错 码 ， 其 中 计算 机 的 字 会 被 多 编码 几 个 
位 〈 例 如 ，32 位 的 字 可 能 用 38 位 来 编码 )， 这 样 一 来 ， 电路 可 以 发 现 并 纠正 一 个 字 中 任何 单个 
的 销 误 位 。 

图 6-2 总 结 了 SRAM 和 DRAM 存储 器 的 特性 。 只 要 有 供电 ，SRAM 就 会 保持 不 变 。 与 
DRAM 不 同 ， 它 不 需要 刷新 。SRAM 的 存 取 比 DRAM 快 。 SRAM 对 诸如 光 和 电 品 声 这 样 的 干扰 
不 敏感 。 代价 是 SRAM 单元 比 DRAM 单元 使 用 更 多 的 晶体 管 ， 因而 密集 度 低 ， 而 且 更 贵 ， 功 耗 
更 大 。 
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图 6-2 DRAM 和 SRAM 人 

3， 传统 的 DRAM 

DRAM 芯片 中 的 单元 位) 被 分 成 4 个 超 单元 (supercell)， 每 个 超 单元 都 由 w 三 DRAM 
单元 组 成 。 一 个 dxw 的 DRAM 总 共存 储 了 dw 位 信息 。 超 单元 被 组 织 成 一 个 z 行 < 列 的 长 方形 
阵列 ， 这 里 re=d。 每 个 超 单 元 有 形 如 (2， 力 的 地 址 ， 这 里 i 表示 行 ， 而 j 表示 列 。 

例如 ， 图 6-3 展示 的 是 一 个 16X8 的 DRAM 芯片 的 组 织 ， 有 d=16 个 超 单元 ， 每 个 超 单元 有 
w=8 位 ，:=4 行 ，c=4 列 。 带 阴影 的 方 框 表示 地 址 (2，1) 处 的 超 单元 。 信 息 通过 称 为 引 脚 (pin) 
的 外 部 连接 器 流入 和 流出 必 刻 。 每 个 引 脚 携带 一 个 1 位 的 信和 号。 图 6-3 给 出 了 两 组 引 脚 : 8 个 
data 引 脚 ， 它 们 能 传送 一 个 字 节 到 必 片 或 从 世 片 传 出 一 个 字 节 ， 以 及 2 个 addr 引 脚 ， 它 们 携 
带 2 位 的 行 和 列 超 单元 地 址 。 其 他 携带 控制 信息 的 引 脚 没有 显示 出 来 。 


PR 





图 6-3 一 个 128 位 16X8 的 DRAM 芯片 的 高 级 视图 : 


关于 术语 的 注释 

存储 领域 从 来 没有 为 DRAM 的 阵列 元 素 确 定 一 个 标准 的 名 字 。 计 算 机 构架 师 倾 向 于 称 之 为 
“单元 ”(celI)， 使 这 个 术语 具有 DRAM 存储 单元 之 意 。 电 路 设计 者 倾向 于 称 之 为 “ 字 ”(word)， 
使 之 具有 主 珍 一 个 字 之 意 。 | 为 了 避免 混 清 ， 我 们 采用 了 无 歧义 的 术语 “起 站 《supercell)。 


每 个 DRAM 芯片 被 连接 到 某 个 称 为 存储 控制 器 的 电路 ， 这 个 电路 可 以 一 次 传送 w 位 到 每 
个 DRAM 芯片 或 一 次 从 每 个 DRAM 芯片 传 出 w 位。 为 了 读 出 超 单 元 (i, 的 内 容 ， 存 储 控制 
器 将 行 地 址 i 发 送 到 DRAM， 然 后 是 列 地 址 }。DRAM 把 超 单元 (i, 的 内 容 发 回 给 控制 器 作为 响 
应 。 行 地 址 i 称 为 RAS Row Access Strobe， 行 访问 选 通 脉冲 ) 请 求 。 列 地 址 j 称 为 CAS (Column 
Access Strobe， 列 访 问 选 通 脉冲 ) 请 求 。 注意 RAS 和 CAS 请 求 共享 相同 的 DRAM 地 址 引 脚 。 

例如 ， 要 从 图 6-3 中 16X8 的 DRAM 中 读 出 超 单元 (2,1), 存储 控制 器 发 送行 地 址 2， 如 图 

6-4a 所 示 。DRAM 的 响应 是 将 行 2 的 整个 内 容 都 拷贝 到 一 个 内 部 行 缓冲 区 。 接 下 来 ， 存 储 控制 

髓 发 送 列 地 址 1， 如 图 6-4b 所 示 。DRAM 的 啊 应 是 从 行 缓冲 区 拷贝 出 超 单元 (2，.D 中 的 8 位， 
并 把 它 们 发 送 到 存储 控制 器 。 

电路 设计 者 将 DRAM 组 织 成 二 维 阵列 而 不 是 线 性 数组 的 一 个 原 因 是 降低 芯片 上 地 址 引 脚 的 
数量 。 例如 ， 如 果 示 例 的 128 位 DRAM 被 组 织 成 一 个 16 个 超 单元 的 线性 数组 ， 地 址 为 0 一 15， 
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a ) 选择 行 2 (RAS 请 求 ) | ”bb ) 选择 行 1 ( CAS 请 求 ) 


图 6-4” 读 一 个 DRAM 超 单元 的 内 容 


那么 芯片 会 需要 4 个 地 址 引 脚 而 不 是 2 个。 二 维 阵列 组 织 的 缺点 是 必须 分 两 步 发 送 地 址 ， 这 增加 
了 访问 时 间 。 

4. 存储 器 模块 

DRAM 芯片 包装 在 存储 器 模块 (memory module) 中 ， 它 是 播 到 主板 的 扩展 槽 上 的 。 常 见 的 
包装 包括 168 个 引 脚 的 双 列 直 插 存储 器 模块 (Dual Inline Memory Module，DIMM)， 它 以 64 位 
为 块 传送 数据 到 存储 控制 器 和 从 存储 控制 器 传 出 数据 ， 还 包括 72 个 引 脚 的 单列 直 插 存储 器 模块 
(Single Inline Memory Module，SIMM)， 它 以 32 位 为 块 传送 数据 。 

图 6-5 展示 了 一 个 存储 器 模块 的 基本 思想 。 示 例 模块 用 8 个 64Mbit 的 8SMX8 的 DRAM 芯 
片 ， 总 共存 储 64MB 〈 兆 字 节 )， 这 8 个 芯片 编号 为 0 一 7。 每 个 超 单元 存储 主 存 的 一 个 字 节 ， 而 
用 相应 超 单元 地 址 为 (i, 方 的 8 个 超 单元 来 表示 主 存 中 字 节 地 址 A 处 的 64 位 双 字 9。 在 图 6-5 中 
示例 中 ，DRAM 0 存储 第 一 个 〈 低 位 ) 字 节 ，DRAM 1 存储 下 一 个 字 节 ， 依 此 类 推 。 

要 取出 存储 器 地 址 A 处 的 一 个 64 位 双 字 ， 存 储 控制 器 将 A 转换 成 一 个 超 单元 地 址 (i 让 
并 将 它 发 送 到 存储 器 模块 ， 然 后 存储 器 模块 再 将 i 和 j 广播 到 每 个 DRAM。 作 为 啊 应 ， 每 个 
DRAM 输出 它 的 (2， 旋 超 单元 的 8 位 内 容 。 模 块 中 的 电路 收集 这 些 输出 ， 并 把 它们 合并 成 一 个 
64 位 双 字 ， 再 返回 给 存储 控制 器 。 

通过 将 多 个 存储 器 模块 连接 到 存储 控制 器 ， 能 够 聚合 主 存 。 在 这 种 情 况 下 ， 当 控 制 器 收 到 一 
个 地 址 4 时， 控制 器 选择 包含 4 的 模块 玉 将 4 转换 成 它 的 (i,】 的 形式 ， 并 将 (i,】) 发 送 到 模块 。 
区 电 练习 题 6.1 接 下 来 ， 设 xr 表示 一 个 DRAM 阵列 中 的 行 数 ，c 表示 列 数 ，b, 表 示 行 寻 址 所 需 的 位 数 ， 

b。 表示 列 寻 址 所 需 的 位 数 。 对 于 下 面 每 个 DRAM， 确 定 2 的 容 数 的 阵列 维 数 ， 使 得 max(b,，b,) 最 小 ， 

”max(b,，bo) 是 对 阵列 的 行 或 列 寻 址 所 需 的 位 数 中 较 大 的 值 。 








日 IA32 会 称 64 位 为 “四 字 ”。 
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当 一 训 分 在 序 绕 欧 和 扫 疗 
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位 于 主 存 地 址 A 处 的 64 位 双 字 
到 CPU 芯 此 的 64 位 双 字 


图 6-5 读 一 个 存储 器 模块 的 内 容 
5. 增强 的 DRAM : 


要 : 超 单元 (i,， j) 
由 八 个 8M x 8 的 
DRAM 组 成 的 64MB 
0 48~55140~47132~39|24~31 Le 和 
位 | 位 1 上 位 | 位 
63 5655 4847 4039 3231 2423 1615 87 0 
存储 
控制 器 


”有 许多 种 DRAM 存储 器 ， 而 生产 厂商 试图 跟 上 迅速 增长 的 处 理 器 速度 ， 市 场 上 就 会 定期 推 
出 新 的 种 类 。 每 种 都 是 基于 传统 的 DRAM 单元 ， 并 进行 了 一 旦 优化 ， 改进 了 访 问 基本 DRAM 单 


元 的 速度 。 


。 快 页 模式 DRAM (Fast Page Mode DRAM，FPM DRAM)。 传 统 的 DRAM 将 超 单元 的 一 
整 行 拷贝 到 它 的 内 部 行 缓冲 区 中 ， 使 用 一 个 ， 然 后 丢弃 剩余 的 。FPM DRAM 人 允许 对 同一 
行 连 续 地 访问 可 以 直接 从 行 缓冲 区 得 到 服务 ， 从 而 改进 了 这 一 点 。 例 如 ， 要 从 一 个 传统 的 
DRAM 的 行 i 中 读 四 个 超 单元 ， 存 储 控制 器 必须 发 送 四 个 RAS/CAS 请 求 ， 即 使 是 行 地 址 i 
在 每 个 情况 中 都 是 一 样 的 。 要 从 一 个 FPM DRAM 的 同一 行 中 读 取 超 单元 ， 存储 控制 器 发 
送 第 一 个 RAS/CAS 请 求 ， 后 面 跟 三 个 CAS 请 求 。 初 始 的 RAS/CAS 请 求 将 行 i 找 贝 到 行 
缓冲 区 ， 并 返回 CAS 寻 址 的 那个 超 单 元 。 接 下 来 三 个 超 单元 直接 从 行 缓冲 区 获得 ， 因 此 比 


初始 的 超 单元 更 快 。 


.扩展 数据 输出 DRAM (Extended Data Out DRAM，EDO DRAM)。FPM DRAM 的 一 个 增 


强 的 形式 ， 它 允许 单独 的 CAS 信号 在 时 间 上 靠 得 更 紧密 一 点 。 


。 同 步 DRAM (Synchronous DRAM，SDRAM)。 就 它们 与 存储 控制 器 通信 使 用 一 组 显 式 的 
控制 信号 来 说 ， 常 规 的 、FPM 和 EDO DRAM 都 是 异步 的 。SDRAM 用 与 驱动 存储 控制 器 
相同 的 外 部 时 钟 信 号 的 上 升 沿 来 代替 许多 这 样 的 控制 信号 。 我 们 不 会 深入 讨论 细节 ， 最 终 


效果 就 是 SDRAM 能 够 比 那 些 异 步 的 存储 器 更 快 地 输出 超 单元 的 内 容 。 


。 双 倍数 据 速 这 同 步 DRAM (Double Data-rate Synchronous DRAM, DDR SDRAM )。 


DDR 


SDRAM 是 对 SDRAM 的 一 种 增强 ， 它 通过 使 用 两 个 时 钟 沿 作 为 控制 信号 ， 从 而 使 DRAM 
的 速度 翻 倍 。 不 同类 型 的 DDR SDRAM 是 用 提高 有 效 带 宽 的 很 小 的 预 取 缓冲 区 的 大 小 来 划 
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分 的 : DDR (2 位 )、DDR2 (4 位 ) 和 DDR3 (8 位 )。 

。 Rambus DRAM(RDRAM)。 这 是 另 一 种 私有 技术 ， 它 的 最 大 带宽 比 DDR SDRAM 的 更 高 。 
“视频 RAM (Video RAM，VRAM)。 它 用 在 图 形 系统 的 帧 缓冲 区 中 。VRAM 的 思想 与 FPM 
DRAM 类 似 。 两 个 主要 的 区 别 是 : 1) VRAM 的 输出 是 通过 依次 对 内 部 缓冲 区 的 整个 内 容 
进行 移 位 得 到 的 ; 2) VRAM 允许 对 存储 器 并 行 地 读 和 写 。 因 此 ， 系 统 可 以 在 写 下 一 次 更 
新 的 新 值 〈 写 ) 的 同时 ， 用 帧 缓冲 区 中 的 像素 刷 屏 幕 〈( 读 )。 


DRAM 技术 流行 的 历史 

直到 1995 年 ， 大 多 数 PC 都 是 用 FPM DRAM 构造 的 。1996 ~ 1999 年 ，EDO DRAM 在 市 
场 上 占据 了 优势 ， 而 FPM DRAM 几乎 销声匿迹 了 。SDRAM 最 早出 现在 1995 年 的 高 端 系统 中 ， 
到 2002 年 ， 大 多 数 PC 都 是 用 SDRAM 和 DDR SDRAM 制造 的 。 到 2010 年 之 前 ， 大 多 数 服务 
器 和 来 面 系 统 都 是 用 DDR3 SDRAM 构造 的 。 实 际 上 ，Intel Core i7 只 支持 DDR3 SDRAM.。 


6. 非 易 失 性 存储 器 

如 果断 电 ，DRAM 和 SRAM 会 丢失 它们 的 信息 ， 从 这 个 意义 上 说 ， 它 们 是 易 失 的 〈volatile )。 
另 一 方面 ， 非 易 失 性 存储 器 (nonvolatile memory) 即使 是 在 关 电 后 ， 也 仍然 保存 着 它们 的 信息 。 
现在 有 很 多 种 非 易 失 性 存储 器 。 由 于 历史 原因 ， 虽 然 ROM 中 有 的 类 型 既 可 以 读 也 可 以 写 ， 但 是 
它们 整体 上 都 称 为 只 读 存储 器 〈Read-Only Memory，ROM)。ROM 是 以 它们 能 够 被 重 编程 〈 写 ) 
的 次 数 和 对 它们 进行 重 编程 所 用 的 机 制 来 区 分 的 。 

PROM (Programmable ROM， 可 编程 ROM) 只 能 被 编程 一 次 。PROM 的 每 个 存储 器 单元 有 
一 种 熔 丝 〈fnse)， 它 只 能 用 高 电流 熔断 一 次 。 

可 擦 写 可 编程 ROM (Erasable Programmable ROM，EPROM) 有 一 个 透明 的 石英 窗口， 允许 
光 到 达 存 储 单元 。 紫 外 线 光 照射 过 窗口 ，EPROM 单元 就 被 清除 为 0。 对 EPROM 编程 是 通过 使 
用 一 种 把 1 写 人 EPROM 的 特殊 设备 来 完成 的 。EPROM 能 够 被 擦 除 和 重 编程 的 次 数 的 数量 级 可 
以 达到 1000 次 。 电 子 可 擦 除 PROM (Electrically Erasable PROM，EEPROM) 类 似 于 EPROML， 
但 是 它 不 需要 一 个 物理 上 独立 的 编程 设备 ， 因 此 可 以 直接 在 印 制 电 路 卡 上 编程 。EEPROM 能 够 
被 编程 的 次 数 的 数量 级 可 以 达到 10 次 。 

内 存 (flash memory) 是 一 类 非 易 失 性 存储 器 ， 基 于 EEPROM， 它 已 经 成 为 了 一 种 重要 的 存 
储 技术 。 内 存 到 处 都 是 ， 为 大 量 的 电子 设备 提供 快速 而 持久 的 非 易 失 性 存储 ， 包 括 数码 相机 、 手 
机 、 音 乐 播放 器 、PDA 和 笔记 本 、 台 式 机 以 及 服务 器 计算 机 系统 。 在 6.1.3 节 中 ， 我 们 会 仔细 研 
究 一 种 新 型 的 基于 闪存 的 磁盘 驱动 器 ， 称 为 固态 硬盘 (Solid State Disk，SSD)， 它 能 提供 相对 于 
传统 旋转 磁盘 更 快速 、 更 强健 和 更 低能 耗 的 选择 。 

存储 在 ROM 设备 中 的 程序 通常 称 为 固件 〈firmware)。 当 一 个 计算 机 系统 通电 以 后 ， 它 会 运 

行 存储 在 ROM 中 的 固件 。 一 些 系统 在 固件 中 提供 了 少量 基本 的 输入 和 输出 函数 一 一 例如 ，PC 
四 BIOS (基本 输入 /输出 系统 ) 例 程 。 复 杂 的 设备 ， 像 图 形 卡 和 磁盘 驱动 控制 器 ， 也 依赖 区 固件 
0 CPU 的 VO 输入 /输出 ) 请 求 。 

7. 访问 主 存 

数据 流通 过 称 为 总 线 (bus) 的 共享 电子 电路 在 处 理 器 和 DRAM 主 存 之 间 来 来 回回 。 每 
次 CPU 和 主 存 之 间 的 数据 传送 都 是 通过 一 系列 步骤 来 完成 的 ， 这 些 步骤 称 为 总 线 事 务 〈bus 
transaction )。 读 事务 (read transaction) 从 主 存 传 送 数 据 到 CPU。 写 务 (write transaction) 从 
CPU 传送 数据 到 主 存 。 

总 线 是 一 组 并 行 的 导线 ， 能 携带 地 址 、 数 据 和 控制 信和 号。 取决 于 总 线 的 设计 ， 数 据 和 地 址 信 
号 可 以 共享 同一 组 导线 ， 也 可 以 使 用 不 同 的 。 同 时 ， 两 个 以 上 的 设备 也 能 共享 同一 根 总 线 。 控 制 


388 锚 一 部 分 在 序 结 攀 和 雪 疗 


线 携带 的 信号 会 同步 事务 ， 并 标识 出 当前 正在 被 执行 的 事务 的 类 型 。 例 如 ， 当 前 关注 的 这 个 事务 
是 到 主 存 的 吗 ? 还 是 到 诸如 磁盘 控制 器 这 样 的 其 他 IO 设备 ? 这 个 事务 是 读 还 是 写 ? 总 线 上 的 信 
四 是 地 址 还 是 数据 项 ? 

图 6-6 展示 了 一 个 示 例 计算 机 系统 的 配置 主要 部 件 是 CPU 芯片 、 我 们 将 称 为 IO 桥 (LO 
bridge) 的 芯片 组 (其 中 包括 存储 控制 器 )， 以 及 组 成 主 存 的 DRAM 存储 器 模块 。 这 些 部 件 由 一 
对 总 线 连接 起 来 ， 其 中 一 条 总 线 是 系统 总 线 (system bus)， 它 连接 CPU 和 IO 桥 ， 另 一 条 总 线 
是 存储 器 总 线 (memory bus)， 它 连接 IO 桥 和 主 存 。 

IO 桥 将 系统 总 线 的 电子 信号 翻译 成 存储 器 总 线 的 电子 信和 号 。 正如 我 们 看 到 的 那样 ，LO 桥 
也 将 系统 总 线 和 存储 器 总 线 连 接 到 IO 总 线 ， 像 磁盘 和 图 形 卡 这 样 的 IO 设备 共享 IO 总线。 不 
过 现在 ， 我 们 将 注意 力 集中 在 存储 器 总 线 上 。 


CPU 芯片 





图 6-6 典型 的 连接 CPU 和 主 存 的 总 线 结构 


关于 部 统计 的 注 风 
总 线 设 计 是 计算 机 系统 中 一 个 复杂 而 且 变化 迅速 的 方面 。 不 同 的 厂商 提出 了 不 同 的 总 线 
体系 结构 ， 作 为 产品 差异 化 的 一 种 方法 。 例 如 ，Intel 系统 使 用 称 为 北桥 (northbridge) 和 南 桥 
(Southbridge) 的 芯片 组 分 别 将 CPU 连接 到 存储 器 和 IO 设备 。 在 比较 老 的 Pentium 和 Core 2 系 
统 中 ， 前 瑞 总 线 (Front Side Bus，FSB) 将 CPU 连接 到 北桥 。 来 自 AMD 的 系 统 将 FSB 替换 为 
超 传 输 (HyperTransport) 互联 ， 而 更 新 一 些 的 Intel Core i7 系统 使 用 的 是 快速 通道 (QuickPath ) 
互联 。 这 些 不 同 总 线 体系 结构 的 细节 超出 了 本 书 的 范围 。 反 之 ， 我 们 会 使 用 图 6-6 中 的 高 级 总 线 
体系 结构 作为 一 个 运行 示例 贯穿 本 书 。 这 是 一 个 简单 但 是 有 用 WA 象 ， 使 得 我 们 可 以 很 具体 ， 并 
且 可 以 掌握 主要 思想 而 不 必 与 任何 私有 设计 的 细节 绑 得 太 紧 。 


考虑 当 CPU 执行 一 个 向 下 面 这 样 的 加 载 操作 时 会 发 生 什么 


mov! A, a 


这 里 ， 地 址 4 的 内 容 被 加 载 到 寄存 器 seax 中 。CPU 芯片 上 称 为 总 线 接 ， DD (bus interface) 
的 电路 发 起 总 线 上 的 读 事务 。 读 事务 是 由 三 个 步骤 组 成 的 。 首 先 ，CPU 将 地 址 4 放 到 系统 总 线 
上 。1O 桥 将 信号 传递 到 存储 器 总 线 ( 见 图 6-7a)。 其 次 ， 主 存 感 觉 到 存储 器 总 线 上 的 地 址 信和 号， 
从 存储 器 总 线 读 地 址 ， 从 DRAM 取出 数据 字 ， 并 将 数据 写 到 存储 器 总 线 。LO 桥 将 存储 器 总 线 
信和 号 翻译 成 系统 总 线 信号 ， 然 后 沿 着 系统 总 线 传递 〈 见 图 6-7b)。 最 后 ，CPU 感觉 到 系统 总 线 上 
的 数据 ， 从 总 线 上 读数 据 ， 并 将 数据 拷贝 到 寄存 器 seax 〈 见 图 6-7c)。 站 

”及 着 来 ， 当 CPU 和 


中 movi Seax, A 
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寄存 器 文件 





a) CPU 将 地 址 4 放 到 存储 器 总 线 上 
寄存 器 文件 





b ) 主 存 从 总 线 读 出 4， 取 出 字 x， 然 后 将 x 放 到 总 线 上 


%eax 语 吉 ds a 


c) CPU 从 总 线 读 出 字 x， 并 将 它 拷贝 到 寄存 器 %eax 中 
图 6-7 加 载 操 作 movl A，%eax 的 存储 器 读 事务 = 






这 里 ， 寄 存 器 $eax 的 内 容 被 写 到 地 址 4, CPU 发 起 写 事 务 。 同 样 ， 有 三 个 基本 步 又。 首先 ， 
CPU 将 地 址 放 到 系统 总 线 上 。 存 储 器 从 存储 器 总 线 读 出 地 址 ， 并 等 待 数据 到 达 〈 见 图 68a)。 其 
次 ，CPU 将 seax 中 的 数据 字 找 贝 总 线 〈 见 图 6-8b)。 最 后 ， 主 存 从 存储 器 总 线 读 出 数据 
字 ， 并 且 将 这 些 位 存储 到 DRAM 中 〈 见 图 6-8c)。 

6.1.2 ”磁盘 存储 

磁盘 是 广 为 应 用 的 保存 大 量 数 据 的 存储 设备 ， 存 储 数据 的 数量 级 可 以 达到 几 百 到 几 千 千 兆 字 
节 ， 而 基于 RAM 的 存储 器 只 能 有 几 百 或 几 千 兆 字 节 。 不 过 ， 从 磁盘 上 读 信息 的 时 间 为 毫秒 级 ， 
从 DRAM 读 比 从 磁盘 读 快 10 万 倍 ， 从 SRAM 读 比 从 磁盘 读 快 100 万 倍 。 

1. 磁盘 构造 

磁盘 是 由 盘 片 (platter) 构成 的 。 每 个 盘 片 有 两 面 或 者 称 为 表面 0 表面 覆盖 着 
磁性 记录 材料 。 盘 片 中 央 有 一 个 可 以 旋转 的 主轴 (spindle)， 它 使 得 盘 片 以 固定 的 旋转 速率 
(rotational rate) 旋转， 通常 是 5400 一 15 000 转 每 分 钟 (Revolution Per Minute，RPM)。 磁 盘 通 
常 包含 一 个 或 多 个 这 样 的 盘 片 ， 并 封装 在 一 个 密封 的 容器 内 。 

”图 6-9a 展示 了 一 个 典型 的 磁盘 表面 的 结构 。 每 个 表面 是 由 一 组 称 为 磁道 (track) 的 同心 加 
组 成 的 。 每 个 磁道 被 划分 为 一 组 扇 区 〈sector)。 每 个 扇 区 包含 相等 数量 的 数据 位 〈 通 常 是 512 字 
节 )， 这 些 数 据 编码 在 房 区 上 的 磁性 材料 中 。 扇 区 之 间 由 一 些 间隙 (gap) 分 隔 开 ， 这 些 间 辽 中 不 
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存储 数据 位 。 间 了 存储 用 来 标识 扇 区 的 格式 化 位 。 
寄存 器 文件 





a ) CPU 将 地 址 4 放 到 存储 器 总 线 。 主 存 读 出 这 个 地 址 ， 并 等 待 数据 字 
寄存 器 文件 





“。) 主 存 从 总 线 读数 据 字 ?， 并 将 它 存储 在 地 址 4 
图 6-8 ”存储 操作 movl %eax,A 的 存储 器 写 事 务 


磁盘 是 由 一 个 或 多 个 又 放 在 一 起 的 盘 片 组 成 的 ， 它 们 被 封装 在 一 个 密封 的 包装 里 ， 如 图 
6-9b 所 示 。 整 个 装置 通常 称 为 磁盘 驱动 器 (disk drive)， 我 们 通常 简称 为 磁盘 (disk)。 有 了 时， 我 
们 会 称 磁盘 为 旋转 磁盘 〔rotating disk)， 以 使 之 区 别 于 基于 闪存 的 固态 硬盘 (SSD)，SSD 是 没有 


移动 的 部 分 的 。 


间 际 





a ) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 


图 6-9 磁盘 构造 
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磁盘 制造 商 通 常用 术语 柱 面 《cylinder) 来 描述 多 个 盘 片 驱动 器 的 构造 ， 这 里 ， 柱 面 是 所 有 
盘 片 表面 上 到 主轴 中 心 的 距离 相等 的 磁道 的 集合 。 例 如 ， 如 果 一 个 驱动 器 有 三 个 益 上 请 和 六 个 面 ， 
每 个 表面 上 的 磁道 的 编号 都 是 一 致 的 ， 那 么 柱 面 上 就 是 六 个 磁道 上 的 集合 。 
2. 磁盘 容量 
一 个 磁盘 上 可 以 记录 的 最 大 位 数 称 为 它 的 最 大 容量 ， 或 者 简称 为 容量 。 磁 盘 容 量 是 由 以 下 技 
术 因 素 决 定 的 : 
* 记录 密度 〈Iecording density)〈 位 /英寸 ) : 磁道 一 英寸 的 段 中 可 以 放 入 的 位 数 。 
。 磁 道 密度 (track density) ( 道 /英寸 ) ; 从 盘 片 中 心 出 发 半径 上 一 英寸 的 段 内 可 以 有 的 磁 
道 数 。 
。 面 密度 (areal density)( 位 /平方 英寸 ) : 记录 密度 与 磁道 密度 的 乘积 。 
磁盘 制造 商 不 懈 地 努力 以 提高 面 密度 (从 而 增加 容量 )， 而 面 密 度 每 隔 几 年 就 会 翻 倍 。 最 初 
的 磁盘 ， 是 在 面 密度 很 低 的 时 代 设 计 的 ， 将 每 个 磁道 分 为 数目 相同 的 扇 区 ， 肩 区 的 数目 是 由 最 靠 
内 的 磁道 能 记录 的 肩 区 数 决定 的 。 为 了 保持 每 个 磁道 有 固定 的 扇 区 数 ， 越 往外 的 磁道 扇 区 隔 得 越 
开 。 在 面 密度 相对 比较 低 的 时 候 ， 这 种 方法 还 算 合理 。 不 过 ， 随 着 面 密度 的 提高 ， 扇 区 之 间 的 间 
隙 〈 那 里 没有 存储 数据 位 ) 变 得 不 可 接受 地 大 。 因 此 ， 现 代 大 容量 磁盘 使 用 一 种 称 为 多 区 记录 
(multiple zone recording) 的 技术 ， 在 这 种 技术 中 ， 柱 面 的 集合 被 分 割 成 不 相 殊 的 子 集合 ， 称 为 
记录 区 (recording zone)。 每 个 区 包含 一 组 连续 的 柱 面 。 一 个 区 中 的 每 个 柱 面 中 的 每 条 磁道 都 有 
相同 数量 的 扇 区 ， 这 个 肩 区 的 数量 是 由 该 区 中 最 里 面 的 磁道 所 能 包含 的 肩 区 数 确 定 的 。 注 意 ， 软 
盘 仍然 使 用 的 是 老式 的 方法 ， 每 条 磁道 的 扇 区 数 是 常数 。 
下 面 的 公式 给 出 了 一 个 磁盘 的 容量 : 
盘 区 道 盘 
人 各 罕 量 = -局 区 x 磁道 x 表面 x 彼 片 > 
例如 ， 假 设 我 们 有 一 个 磁盘 ， 有 5 个 盘 片 ， 每 个 扇 区 512 个 字 节 ， 每 个 面 20 000 条 磁道 ， 
每 条 磁道 平均 300 个 扇 区 。 那 么 这 个 磁盘 的 容量 是 : 
,后 _512 字 节 、300 扇 区 、20 000 磁道 2 表面 、5 盘 片 
磁盘 容量 = 一 启 区 x 概 道 ”表面 x 盘 片 x 视盘- 
= 30 720 000 000 字 节 
= 30.72GB 


注意 ， 制造 商 是 以 千 兆 字 节 (GB) 为 单位 来 表达 磁盘 容量 的 ， 这 里 1GB = 10 FO 


一 吉 字 节 有 多 大 ? 

不 站 地 ,， 像 K (kilo)、M (mega)、G (giga) 和 T (tera) 这 样 的 前 级 的 含义 依赖 于 上 下 文 。 
对 于 与 DRAM 和 SRAM 容量 相关 的 计量 单位 ， 通 常 K=2"”，M=2”，G=2”， 而 T=2”。 对 于 
与 像 磁盘 和 网 络 这 样 的 IO 设备 容量 相关 的 计量 单位 ， 通 常 K=10,,， M=10,G=10”, 而 T= 
10“。 速 率 和 吞吐 量 常常 也 使 用 这 些 前 缓 。 

说 过 地 ， 对 手 我 们 通常 从 前 的 起 澡 归 复 检 放生 的 个 站住， 无 站 二 败 笠 相 入 在 条 慰 中 者 工程 和 
很 好 。 例 如 ，22 = 1 048 576 和 105= 1 000 000 之 间 的 相对 差别 很 小 : (2? 一 105) / 105 = 5%。 类 似 
地 ， 对 于 2 = 1073741 824 和 10”= 1 000 000 000 : (2”-10”)/10 ~ 7%6。 


医 莘 练习 题 6.2 ”计算 这 样 一 个 磁盘 的 容量 ， 它 有 2 个 盘 片 ，10 000 个 柱 面 ， 每 条 磁道 平均 有 400 个 扁 区 ， 
”而 每 个 扁 区 有 $12 个 字 节 。 . 
3. 磁盘 操作 
磁盘 用 读 / 写 头 (read/write head) 来 读 写 存储 在 磁性 表面 的 位 ， 而 读 写 头 连接 到 一 个 传动 
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愤 (actuator arm) 一 端 ， 如 图 6-10a 所 示 。 通 过 沿 着 半径 轴 前 后 移动 这 个 传动 臂 ， 了 驱动器 可 以 将 
读 / 写 头 定位 在 盘面 上 的 任何 磁道 上 。 这 样 的 机 械 运 动 称 为 寻 道 〈seek)。 一 且 读 / 写 头 定位 到 了 
期 望 的 磁道 上 ， 那 么 当 磁 道上 的 每 个 位 通过 它 的 下 面 时 ， 读 / 写 头 可 以 感知 到 这 个 位 的 值 〈 读 该 
位 )， 也 可 以 修改 这 个 位 的 值 〈 写 该 位 )。 有 多 个 盘 瞩 的 磁盘 针对 每 个 盘面 都 有 一 个 独立 的 读 / 写 
头 ， 如 图 6-10b 所 示 。 读 / 写 头 垂直 排列 ， 一 致 行动 。 在 任何 时 刻 ， 所 有 的 读 / 写 头 都 位 于 同一 
个 柱 面 上 。 







读 / 写 头 连 到 传动 臂 的 末 
端 ， 在 磁盘 表面 上 一 层 
薄 薄 的 气垫 上 飞翔 


磁盘 表面 以 固定 。 
的 旋转 速率 旋转 


000 A DD 
le Ge 


Ze 通过 在 半径 方向 上 





任何 磁道 上 


a) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 
图 6-10 磁盘 的 动态 特性 


在 传动 臂 末 端的 读 / 写 头 在 磁盘 表面 高 度 大 约 0.1 微米 处 的 一 层 薄 薄 的 气垫 上 飞翔 (就 是 字 
面 上 这 个 意思 )， 速 度 大 约 为 80km/h。 这 可 以 比喻 成 将 Sears Tower 〈 译 者 注 : 一 座位 于 芝加哥 
的 108 层 和 442 米 高 的 摩天 大 楼 ) 放 倒 ， 然 后 让 它 在 距离 地 面 2.5 cm (1 英寸 ) 的 高 度 上 飞行 
环绕 地 球 ， 绕 地 球 一 天 只 需要 8 秒 钟 ! 在 这 样 小 的 间 队 里， 盘面 上 一 粒 微 小 的 灰 侍 都 像 一 块 巨 
石 。 如 果 读 / 写 头 碰 到 了 这 样 的 一 块 巨 石 ， 读 / 写 头 会 停 下 来 ， 擅 到 盘面 一 一 所 谓 的 读 / 写 头 冲 
接 (head crash)。 为 此 ， 和 磁盘 总 是 密封 包装 的 。 
磁盘 以 扇 区 大 小 的 块 来 读 写 数据 。 对 扇 区 的 访问 时 间 (access time) 有 三 个 主要 的 部 分 : 寻 
道 时 间 (seek time)、 旋 转 时 间 (rotational latency) 和 传送 时 间 (transfer time ) : 
。 寻 道 时 间 : 为 了 读 取 某 个 目标 肩 区 的 内 容 ， 传 动 臂 首先 将 读 / 写 头 定位 到 包含 目标 扇 区 的 
磁道 上 上。 移动 传动 臂 所 需 的 时 间 称 为 寻 道 时 间 。 寻 道 时 间 Tw 依赖 于 读 / 写 头 以 前 的 位 置 
和 传动 臂 在 盘面 上 移动 的 速度 。 现 代 驱 动 器 中 平均 寻 道 时 间 Ts 是 通过 对 几 千 次 对 随机 
扇 区 的 寻 道 求 平均 值 来 测量 的 ， 通 常 为 3 ~ 9ms。 一 次 寻 道 的 最 大 时 间 Tomr weet 可 以 高 这 
20ms。 
。 旋转 时 间 : 一 旦 读 / 写 头 定 位 到 了 期 望 的 磁道 ， 驱动 器 等 待 目标 扇 区 的 第 一 个 位 旋转 到 读 
/ 写 头 下 。 这 个 步骤 的 性 能 依赖 于 当 读 / 写 头 到 达 目 标 扇 区 时 盘面 的 位 置 和 磁盘 的 旋转 速度 。 在 
最 坏 的 情况 下 ， 读 / 写 头 刚刚 错过 了 目标 扇 区 ， 0 因此 ， 最 大 旋转 延迟 ， 
(以 秘 为 单位 是 : 
1 60 secs z 


Tog rotation -= RPM xX 1 min 


平均 旋转 时 间 T. avg rotation 是 to 的 一 半 。 

“ 传送 时 间 : 当 目 标记 区 的 第 一 个 位 位 于 读 / 写 头 下 时 ， 了 驱动 器 就 可 以 开始 读 或 者 写 该 扇 区 
的 内 容 了 。 一 个 扇 区 的 传送 时 间 依 赖 于 旋转 速度 和 每 条 磁道 的 扇 区 数目 。 因 此 ， 我 们 可 以 

“粗略 地 估计 一 个 肩 区 以 秒 为 单位 的 平均 传送 时 间 如 下 
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ES 1 wo0 secs 
mnim ”RPM “(平均 扁 区 数 / 磁 道 ) ”1 min 

我 们 可 以 估计 访问 一 个 磁盘 肩 区 内 容 的 平均 时 间 为 平均 寻 道 时 间 、 平均 旋转 延迟 和 平均 传送 
时 间 之 和 。 人 例如， 考虑 一 个 有 如 下 参数 的 磁盘 : 





旋转 速率 7 200RPM 


了 avg seek . oms 


每 条 磁道 的 平均 扇 区 数 400 





对 于 这 个 磁盘 ， 平 均 旋 转 延 迟 〈 以 ms 为 单位 ) 是 
人 Da pe 
=1/2 X (60 secs/7200 RPM) X 1000ms/sec 
. 完 4 ms 
平均 传送 时 间 是 
Tyg transfer 一 60/7200 RPMX 1/400 局 区 / 磁道 X 1000ms/sec 
0.02 ms 
总 之 ， 整 个 估计 的 访问 时 间 是 
人 
=9 ms+4 ms+0.02 mas 
=13.02 ms 

这 个 例子 说 明了 一 些 很 重要 的 问题 : 

“访问 一 个 磁盘 扇 区 中 512 个 字 节 的 时 间 主 要 是 寻 道 时 间 和 旋转 延迟 。 访 问 扇 区 中 的 第 一 个 

字 节 用 了 很 长 时 间 ， 但 是 访问 剩 下 的 字 节 几乎 不 用 时 间 。 

。 因 为 寻 道 时 间 和 旋转 延迟 大 致 是 相等 的 ， 所 以 将 寻 道 时 间 乘 2 是 估计 磁盘 访问 时 间 的 简单 
而 合理 的 方法 。 

“对 存储 在 SRAM 中 的 双 字 的 访问 时 间 大 约 是 4ns， 对 DRAM 的 访问 时 间 是 60ns。 因 此 ， 
从 存储 器 中 读 一 个 512 个 字 节 扇 区 大 小 的 块 的 时 间 对 SRAM 来 说 大 约 是 256ns, 对 DRAM  ， 
来 说 大 约 是 4000ns。 磁 盘 访 问 时 间 ， 大 约 10ms， 比 SRAM 大 约 大 40 000 倍 ， 比 DRAM 
大 约 大 2500 倍 。 如 果 我 们 比较 访问 一 个 单字 的 时 间 ， 这 些 访问 时 间 的 差别 会 更 大 。 

攻 弹 练习 题 6.3 ” 估计 访问 下 面 这 个 磁盘 上 一 个 访 区 的 访问 时 间 〈 以 ms 为 单位 ): 


旋转 速率 15 000RPM 


了， avg seek 8ms 


每 条 磁道 的 平均 扇 区 数 










3. 逻辑 磁盘 块 

正如 我 们 看 到 的 那样 ， 现 代 磁 盘 构造 复杂 ， 有 多 个 盘面 ， 这 些 盘面 上 有 不 同 的 记录 区 。 为 了 
对 操作 系统 隐藏 这 样 的 复杂 性 ， 现 代 磁 盘 将 它们 的 构造 呈现 为 一 个 简单 的 视图 ， 一 个 B 个 扇 区 
大 小 的 过 辑 块 的 序列 ， 编 号 为 0，1，…，B 一 1。 磁 盘 中 有 一 个 小 的 硬件 / 固件 设备 ， 称 为 磁盘 控 
制 器 ， 维 护 着 逻辑 块 号 和 实际 物理) 磁盘 扇 区 之 间 的 映射 关系 。 : 

当 操 作 系 统 想 要 执行 一 个 VO 操作 时 ， 例如 读 一 个 磁盘 遍 区 的 数据 到 主 存 ， 操作 系统 会 发 送 
一 个 命令 到 磁盘 控制 器 ， 让 它 读 某 个 逻辑 块 号 。 控 制 器 上 的 固件 执行 一 个 快速 表 查 找 ， 将 一 个 逻 
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辑 块 号 翻译 成 一 个 (盘面 ， 磁 道 ， 扁 区 ) 的 三 元 组 ， 这 个 三 元 组 唯一 地 标识 了 对 应 的 物理 扇 区 。 
控制 器 上 的 硬件 解释 这 个 三 元 组 ， 将 读 / 写 头 移动 到 适当 的 柱 面 ， 等 待 肩 区 移动 到 读 / 写 头 下 ， 
将 读 / 写 头 感知 到 的 位 放 到 控制 器 上 的 一 个 小 缓冲 区 中 ， 然 后 将 它们 拷贝 到 主 存 中 。 


格式 化 的 磁盘 容量 

在 磁盘 可 以 存储 数据 之 前 ， 它 必须 被 磁盘 控制 器 格式 化 。 这 包括 用 标识 扇 区 的 信息 填写 户 区 
之 间 的 间隙 ， 标 识 出 表面 有 故障 的 柱 面 并 且 不 使 用 它们 ， 以 及 在 每 个 区 中 预 留 出 一 组 柱 面 作 为 备 
用 ， 如 果 区 中 一 个 或 多 个 柱 面 在 磁盘 使 用 过 程 中 坏 掉 了 ， 就 可 以 使 用 这 些 备用 的 柱 面 。 因 为 存在 
着 这 些 备用 的 柱 面 ， 所 以 磁盘 制造 商 所 说 的 格式 化 容量 比 最 大 容量 要 小 。 





攻 玉 练习 题 6.4 假设 1MB 的 文件 由 512 个 字 节 的 逻辑 块 组 成 ， 存 储 在 具有 如 下 特性 的 磁盘 驱动 器 上 : 


对 于 下 面 的 情况 ， 假 设 程序 顺序 地 读 文件 的 逻辑 块 ， 一 个 接 一 个 ， 将 读 / 写 头 定 位 到 第 一 块 上 的 时 间 
是 1. avg seek +7. avg rotation° | 

A. 最 好 的 情况 : 给 定 逻 辑 块 到 磁盘 扁 区 的 最 好 的 可 能 的 映射 〈 即 顺序 的 )， 估 计 读 这 个 文件 需要 的 最 

优 时 间 《〈 以 ms 为 单位 )。 

B. 随机 的 情况 : 如 果 块 是 随机 地 映射 到 磁盘 遍 区 的 ， 佑 计 读 这 个 文件 需要 的 时 间 〈 以 ms 为 单位 )。 

4. 连接 到 WO 设备 

像 图 形 卡 、 监 视 器 、 和 鼠标、 键盘 和 磁盘 这 样 的 输入 /输出 (VO) 设备 ， 都 是 通过 IO 总 线 ， 
例如 Intel 的 外 围 设 备 互 连 (Peripheral Component Interconnect，PCI) 总线 连接 到 CPU 和 主 存 的 。 
系统 总 线 和 存储 器 总 线 是 与 CPU 相关 的 ， 与 它们 不 同 ， 诸 如 PCI 这 样 的 IO 总 线 设 计 成 与 底层 
CPU 无 关 。 例 如 ，PC 和 Mac 都 可 以 使 用 PCI 总线。 图 6-11 展示 了 一 个 典型 的 IO 总 线 结构 〈 以 











， 了 CI 为 模型 )， 它 连接 了 CPU、 主 存 和 IO 设备 。 


虽然 VO 总 线 比 系统 总 线 和 存储 器 总 线 慢 ， 但 是 它 可 以 容纳 种 类 繁多 的 第 三 方 VO 设备 。 例 
如 ， 在 图 6-11 中 ， 有 三 个 不 同类 型 的 设备 连接 到 总 线 。 
。 通 用 串 行 总 线 (Universal Serial Bus，USB ) 控制 器 是 一 个 连接 到 USB 总 线 的 设备 的 中 转 
机 构 ，USB 总 线 是 一 个 广泛 使 用 的 标准 ， 连 接 各 种 外 围 IO 设备 ， 包 括 键盘 、 鼠 标 、 调 制 
解 调 器 、 数 码 相 机 、 游 戏 操纵 杆 、 打 印 机 、 外 部 磁盘 驱动 器 和 固态 硬盘 。USB 2.0 总 线 的 
最 大 带宽 为 60MB/s。USB 3.0 总 线 的 最 大 带宽 为 600MB/s。 
。 图形 卡 (或 适配器 ) 包含 硬件 和 软件 逻辑 ， 它 们 负责 代表 CPU 在 显示 器 上 画像 素 。 
“主机 总 线 适配器 将 一 个 或 多 个 磁盘 连接 到 IO 总 线 ， 使 用 的 是 一 个 特别 的 主机 总 线 接 口 定 义 
的 通信 协议 。 两 个 最 常用 的 这 样 的 磁盘 接口 是 SCSI ( 读 作 “scuzzy”” 和 SATA ( 读 作 “sat- 
uh”)。SCSI 磁 盘 通 常 比 SATA 驱动 器 更 快 但 是 也 更 贵 。SCSI 主机 总 线 适 配器 (通常 称 为 
SCSI 控制 器 ) 可 以 支持 多 个 磁盘 驱动 器 ， 与 SATA 适配器 不 同 ， 它 只 能 支持 一 个 驱动 器 。 
其 他 的 设备 ， 例 如 网 络 适 配器 ， 可 以 通过 将 适配器 插入 到 主板 上 空 的 扩展 模 中 ， 从 而 连接 到 
LO 总 线 ， 这 些 插 槽 提供 了 到 总 线 的 直接 电路 连接 。 
5. 访问 磁盘 | : 
虽然 详细 描述 VO 设备 是 如 何 工作 的 以 及 如 何 对 它们 进行 编程 超出 了 我 们 讨论 的 范围 ， 但 是 
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我 们 可 以 给 你 一 个 概要 的 描述 。 例 如 ， 图 6-12 总 结 了 当 CPU 从 磁盘 读数 据 时 发 生 的 步骤 。 


CPU 







针对 诸如 网 络 适 
配 估 这 样 的 其 他 
设备 的 扩展 播 槽 


磁盘 


CPU 使 用 一 种 称 为 存储 器 映射 1O (memory-mapped IO) 的 技术 来 向 IO 设备 发 出 命令 ( 见 
图 6-12a)。 在 使 用 存储 器 映射 IO 的 系统 中 ， 地 址 空间 中 有 一 块 地 址 是 为 与 IO 设备 通信 保留 
的 。 每 个 这 样 的 地 址 称 为 一 个 IO 问 口 (1/O port)。 当 一 个 设备 连接 到 总 线 时 ， 它 与 一 个 或 多 个 
端口 相关 联 ( 或 它 被 映射 到 一 个 或 多 个 端口 )。 


CPU 芯片 
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a ) CPU 通过 将 命令 、 逻 辑 块 号 和 目的 存储 器 地 址 写 到 与 磁盘 相关 联 的 存储 器 映射 地 址 ， 发 起 一 个 磁盘 读 
图 6-12 ” 读 一 个 磁盘 扇 区 
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CPU 芯片 





有 Fa 控制 器 


鼠标 ”键盘 ”监视 器 本 
磁盘 


b ) 磁盘 控制 器 读 扁 区 ， 并 执行 到 主 存 的 DMA 传 送 
CPU 芯片 





UO 总 线 
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控制 器 适配器 控制 器 
鼠标 键盘 监视 器 < 


c ) 当 DMA 传 送 完 成 时 ， 磁 盘 控 制 器 用 中 断 的 方式 通知 CPU 
图 6-12 ( 续 ) 


作为 一 个 简单 的 例子 ， 假 设 磁 盘 控 制 器 被 映射 到 端口 0xa0。 随 后 ，CPU 可 能 通过 执行 
三 个 对 地 址 0xa0 的 存储 指令 ， 发 起 磁盘 读 : 第 一 条 指令 是 发 送 一 个 命令 字 ， 告 诉 磁盘 发 起 
一 个 读 ， 同 时 还 发 送 了 其 他 的 参数 ， 例 如 当 读 完成 时 ， 是 否 中 断 CPU 我 们 会 在 8.1 节 中 讨 
论 中 断 )。 第 二 条 指令 指明 应 该 读 的 逻辑 块 号 。 第 三 条 指令 指明 应 该 存储 磁盘 扇 区 内 容 的 主 
存 地 址 。 

当 CPU 发 起 了 请 求 之 后 ， 在 磁盘 执行 读 的 时 候 ， 它 通常 会 做 些 其 他 的 工作 。 回 想 一 下 ， 一 
个 1GHz 的 处 理 器 时 钟 周 期 为 ns， 在 用 来 读 磁盘 的 16ms 时 间 里 ， 它 潜在 地 可 能 执行 1600 万 条 
指令 。 在 传输 进行 时 ， 只 是 简单 地 等 待 ， 什 么 都 不 做 ， 这 是 一 种 极 大 的 浪费 。 

在 磁盘 控制 器 收 到 来 自 CPU 的 读 命令 之 后 ， 它 将 逻辑 块 号 翻译 成 一 个 扇 区 地 址 ， 读 该 局 
区 的 内 容 ， 然 后 将 这 些 内 容 直 接 传送 到 主 存 ， 不 需要 CPU 的 干涉 〈 见 图 6-12b)。 设 备 可 以 目 
已 执行 读 或 者 写 总 线 事务 ， 而 不 需要 CPU 干涉 的 过 程 ， 这 个 过 程 称 为 直接 存储 器 访问 (Direct 
Memory Access，DMA )。 这 种 数据 传送 称 为 DMA 传送 (DMA transfer)。 
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在 DMA 传送 完成 ， 磁 盘 扇 区 的 内 容 被 安全 地 存储 在 主 存 中 以 后 ， 磁 盘 控制 器 通过 给 CPU 
发 送 一 个 中 断 信 和 号 来 通知 CPU 〈 见 图 6-12c)。 基 本 思想 是 中 断 会 发 信号 到 CPU 芯片 的 一 个 外 部 
引 脚 上 。 这 会 导致 CPU 暂停 它 当 前 正在 做 的 工作 ， 跳 转 到 一 个 操作 系统 例 程 。 这 个 程序 会 记录 
下 VO 已 经 完成 ， 然 后 将 控制 返回 到 CPU 朗 中 断 的 地 廊 。 

6. 商用 磁盘 的 剖析 

磁盘 制造 商 在 他 们 的 网 页 上 公布 了 许多 高 级 技术 信 息 。 例 如 ，Cheetah 15K.4 是 最 早 由 
Seagate 在 2005 年 制造 的 SCSI 磁盘 。 如 果 我 们 查询 Seagate 网 页 ee 可 以 看 到 
如 图 6-13 所 示 的 构造 和 性 能 信息 。 


Geometry attribute Value 


Platters 4 
Surfaces (read/write heads) 8 
Surface diameter 3.5 in. 
Sector size ws 512 bytes 


Performance attribute Value 


Rotational rate 15,000 RPM 
Avg. rotationallatency 2ms 
Avg.seek time 4 mas 
Sustained transfer rate 58-96 MB/s 






Zones 3 

Cylinders 50,864 
Recording density 628,000 bits/in. 
Track density . 85,000 tracks/in. 
Areal density (max) | 53.4 Gbits/sq. in. 
Formatted capacity 146:8 GB 






图 6-13 “ Seagate Cheetah 15K.4 的 构造 和 性 能 。 来 源 : WWw.seagate.com 


磁盘 制造 商 很 少 会 公布 关于 每 个 记录 区 构造 的 详细 信息 。 不 过 ， 卡 内 基 - 梅 隆 大 学 的 存储 技 
术 研 究 人 员 开 发 出 了 一 个 很 有 用 的 工具 ， 称 为 DIXtrac， 它 能 自动 发 现 大 量 关 于 SCSI 磁盘 构造 
和 性 能 的 低级 信息 [92]。 例 如 ，DIXtrac 能 够 发 现 示例 的 Seagate 磁盘 详细 的 区 构造 ， 如 图 6-14 
所 示 。 表 中 的 每 一 行 都 描述 了 磁盘 表面 15 个 区 中 的 一 个 。 第 一 列 给 出 的 是 区 号 ， 区 0 是 最 外 面 
的 ， 而 区 14 是 最 里 面 的 。 第 二 列 给 出 的 是 该 区 中 每 条 磁道 中 包含 的 扇 区 数 。 第 三 列 显示 的 是 分 


Zone Sectors Cylinders Logical blocks 
number per track per zone per zone 
(outer) 0 22,076,928 

21,559,136 

22,149,504 

19,943,664 

19,671,480 

20,852,736 

21,159,936 

21,135,200 

20,804,608 

19,858,944 
18,913,280 

17,819,856 

17,054,208 
12,900,096 
(inner) 14 一 


oo ~ 了 修 上 WiN 请 





图 6-14 Seagate Cheetah 15K 4 的 区 图 。 来 源 : DIXtrac 自动 磁盘 驱动 器 描述 工具 [92]。 没 有 
区 14 的 数据 
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配给 该 区 的 柱 面 数量 。 每 个 柱 面 是 由 八条 磁道 组 成 的 ， 每 一 条 磁道 源 自 一 个 盘面 。 类 似 地 ， 第 四 
列 给 出 了 分 配给 每 个 区 的 逻辑 块 总 数 ， 跨 过 了 所 有 8 个 盘面 。( 这 个 工具 不 能 提取 最 里 面 那个 区 
的 合法 数据 ， 所 以 就 省 略 了 。) 

这 个 区 图 揭示 了 一 些 关 于 Seagate 磁盘 的 有 趣 的 事实 。 首 先 ， 靠 外 面 的 区 〈 周 长 更 长 ) 比 靠 
里 面 的 区 有 更 多 的 扇 区 。 其 次 ， 每 个 区 有 上 比 逻 辑 块 更 多 的 扇 区 〈 你 可 以 自己 检查 一 下 )。 各 用 扁 
区 形成 一 个 备用 柱 面 池 。 如 果 一 个 恒 区 上 的 记录 材料 坏 了 ， 磁 盘 控 制 器 会 自动 地 将 该 柱 面 上 的 逻 
辑 块 重 映 射 到 一 个 可 用 的 备用 柱 面 上 上。 所以， 我 们 看 到 ， 逻 辑 块 的 概念 不 仅 能 够 提供 给 操作 系统 
一 个 更 简单 的 接口 ， 还 能 够 提供 一 层 抽 象 ， 使 得 磁盘 能 够 更 健壮 。 就 像 我 们 在 第 9 章 中 研究 虚拟 
存储 器 时 将 会 看 到 的 那样 ， 这 种 通用 的 抽象 思想 非常 强大 。 
二 练习 题 6.5 ”使 用 图 6-14 中 的 区 图 ， 确 定 下 面 这 两 个 区 中 备用 柱 面 的 数量 : 

A. 区 0 

B. 区 8 
6.1.3 固态 硬盘 

固态 硬盘 (Solid State Disk，SSD) 是 一 种 基于 闪存 的 存储 技术 (参见 6.1.1 节 )， 在 某 些 情 
况 下 是 传统 旋转 磁盘 的 极 有 吸引 力 的 蔡 代 产品 。 图 6-15 展示 了 它 的 基本 思想 。SSD 包 插 到 IO 
总 线 上 标准 硬盘 插 横 (通常 是 USB 或 SATA) 中 ， 行 为 就 和 其 他 硬盘 一 样 ， 处 理 来 自 CPU 的 读 
写 逻 辑 磁 盘 块 的 请 求 。 一 个 SSD 包 由 一 个 或 多 个 闪存 芯片 和 闪存 翻译 层 〈flash translation layer) 
组 成 ， 闪 存世 片 替 代 传 统 旋 转 磁盘 中 的 机 械 驱 动 器 ， 而 闪存 翻译 层 是 一 个 硬件 / 固件 设备 ， 扮 演 
与 磁盘 控制 器 相同 的 角色 ， 将 对 逻辑 块 的 请 求 翻译 成 对 底层 物理 设备 的 访问 。 





A 
pd ra el 
3 pr he i 

4 2 


逻辑 磁盘 块 





图 6-15 固态 硬盘 (SSD) 


顺序 读 吞吐 量 顺序 写 吞 吐 量 170MB/s 
随机 读 吞 叶 量 随机 写 知 吐 量 
访问 TT 


图 6-16 一 个 典型 的 固态 硬盘 的 性 能 特性 。 来 源 ; Intel X25-E SATA 固态 硬盘 驱动 器 产品 手册 


SSD 有 着 与 旋转 磁盘 不 同 的 性 能 特性 。 如 图 6-16 所 示 ， 顺 序 读 和 写 (CPU 按 顺 序 访问 逻辑 
磁盘 块 ) 性 能 相当 ， 顺 序 读 比 顺序 号 稍微 快 一 点 。 不 过 ， 当 按照 随机 顺序 访问 逻辑 块 时 ， 写 比 读 
慢 一 个 数量 级 。 z 

随机 读 和 写 的 性 能 差别 是 由 底层 闪存 基本 属性 决定 的 。 如 图 6-15 所 示 ， 一 个 内 存 由 8 个 块 
的 序列 组 成 ， 每 个 块 由 书页 组 成 。 通 常 ， 页 的 大 小 是 512 ~ 4KB， 块 是 由 32 一 128 页 组 成 的 ， 
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块 的 大 小 为 16 ~ 512KB。 数 据 是 以 页 为 单位 读 写 的 。 只 有 在 一 页 所 属 的 块 整个 被 擦 除 之 后 ， 才 
能 写 这 一 页 (通常 是 指 该 块 中 的 所 有 位 都 被 设置 为 1)。 不 过 ， 一旦 一 个 块 被 擦 除了 ， 块 中 每 一 
个 页 都 可 以 不 需要 再 进行 擦 除 就 写 一 次 。 在 大 约 进 行 100 000 次 重复 写 之 后 ， 块 就 会 磨损 坏 。 一 
且 一 个 块 磨损 坏 之 后 ， 就 不 能 再 使 用 了 。 

随机 写 很 慢 ， 有 两 个 原因 。 首 先 ， 擦 除 块 需要 相对 较 长 的 时 间 ，1ms 级 的 ， 比 访问 页 所 需 时 
间 要 高 一 个 多 数量 级 。 其 次 ， 如 果 写 操作 试图 修改 一 个 包含 已 经 有 数据 〈 也 就 是 不 全 为 1) 的 页 
pP， 那 么 这 个 块 中 所 有 带 有 用 数据 的 页 都 必须 被 拷贝 到 一 个 新 ( 擦 除 过 的 ) 块 ， 然 后 才能 进行 对 
页 p 的 写 。 制 造 商 在 已 经 内 存 翻译 层 中 实现 了 复杂 的 逻辑 ， 试 图 抵消 擦 写 块 的 高 昂 人 代价， 最 小 化 
内 部 写 的 次 数 ， 但 是 随机 写 的 性 能 不 太 可 能 能 够 和 读 一 样 好 。 ” 

比 起 旋转 磁盘 ，SSD 有 很 多 优点 。 它 们 由 半导体 存储 器 构成 ， 没 有 移动 的 部 件 ， 因 而 随机 访 
问 时 间 比 旋转 磁盘 要 快 ， 能 耗 更 低 ， 同 时 也 更 结实 。 不 过 ， 也 有 一 些 缺 点 。 首 先 ， 因 为 反复 写 之 
后 ， 闪 存 块 会 磨损 ， 所 以 SSD 也 容易 磨损 。 闪 存 翻 译 层 中 的 平均 磨损 〈(wear leveling) 逻辑 试图 
通过 将 擦 除 平均 分 布 在 所 有 的 块 上 来 最 大 化 每 个 块 的 寿命 ， 但 是 最 基本 的 限制 还 是 没 变 。 其 次 ， 
SSD 每 字 节 比 旋 转 磁盘 贵 大 约 100 倍 ， 因 此 常用 的 存储 容量 是 旋转 磁盘 的 1%。 不 过 ， 随 着 SSD 
变 得 越 来 越 受 欢迎 ， 它 的 价格 下 降 得 非常 快 ， 而 两 者 的 价格 差 也 在 减少 。 

在 移动 音乐 设备 中 ，SSD 已 经 完全 取代 了 旋转 磁盘 ， 在 笔记 本 电脑 中 也 越 来 越 多 地 作为 硬盘 
的 蔡 代 品 ， 茧 至 在 台式 机 和 服务 器 中 也 开始 出 现 了 。 人 但 是 显然 ， 
SSD 是 一 项 重要 的 新 的 存储 技术 。 

本 练习 题 6.6 ”正如 我 们 已 经 看 到 的 ，SSD 的 一 个 潜在 的 缺陷 是 底层 闪存 会 磨损 。 例 如 ， 一 个 主要 的 制 
造 商 保证 他 们 的 SSD 能 够 经 得 起 1 PB(10” 字 节 ) 的 随机 写 。 给 定 这 样 的 假设 ， 根 据 下 面 的 工作 负载 ， 
估计 图 6-16 中 的 SSD 的 寿命 (以 年 为 单位 ): 

A. 顺序 写 的 最 糟 情况 : 以 170MB/s 该 设备 的 平均 顺序 写 吞 吐 量 ) 的 速度 持续 地 写 SSD。 

B. 随机 写 的 最 粮 情 况 : 以 14MB/s (该 设备 的 平均 随机 写 吞吐 量 ) 的 速度 持续 地 写 SSD。 

C. 平均 情况 : 以 20GB/ 天 〈 茶 些 计 算 机 制造 商 在 他 们 的 移动 计算 机 工作 负载 模拟 测试 中 假设 的 平均 每 

天 写 速 率 ) 的 速度 写 SSD。 

6.1.4 存储 技术 趋势 
从 我 们 对 存储 技术 的 讨论 中 ， 可 以 总 结 出 几 个 很 重要 的 思想 。 

不 同 的 存储 技术 有 不 同 的 价格 和 性 能 折 中 。SRAM 比 DRAM 快 一 点 ， 而 DRAM 比 磁盘 要 快 
很 多 。 男 一 方面 ， 快 速 存 储 总 是 比 慢 速 存 储 要 贵 的 。SRAM 每 字 节 的 造价 比 DRAM 高 ，DRAM 
的 造价 又 比 磁盘 高 得 多 。SSD 位 于 DRAM 和 旋转 磁盘 之 间 。 

不 同 存储 技术 的 价格 和 性 能 属性 以 截然 不 同 的 速率 变化 着 。 图 6-17 总 结 了 从 1980 年 以 来 的 
存储 技术 的 价格 和 性 能 属性 ， 最 早 的 PC 是 在 那 一 年 提出 的 。 这 些 数字 是 从 以 前 的 贸易 杂志 中 和 
Web 上 挑选 出 来 的 。 虽 然 它 们 是 从 非 正式 的 调查 中 得 到 的 ， 但 是 这 些 数字 还 是 能 揭示 出 一 些 有 
趣 的 趋势 的 。 

自从 1980 年 以 来 ，SRAM 技术 的 成 本 和 性 能 基本 上 是 以 相同 的 速度 改善 的 。 访问 时 间 
下 降 了 大 约 200 倍 ， 而 每 兆 字 节 的 成 本 下 降 了 300 倍 〈 见 图 6-17a)。 不 过 ，DRAM 和 磁盘 
的 变化 趋势 更 大 ， 而 且 更 不 一 致 。DRAM 每 兆 字 节 的 成 本 下 降 了 130 000 倍 〈 超 过 了 五 个 数 
量 级 )， 而 DRAM 的 访问 时 间 只 下 降 了 大 约 10 倍 〈 见 图 6-17b )。 磁 盘 技术 有 和 DRAM 相同 
的 趋势 ， 甚 至 变化 更 大 。 从 1980 年 以 来 ， 磁 盘存 储 的 每 兆 字 节 成 本 暴跌 了 1 000 000 倍 ( 超 
过 了 六 个 数量 级 )， 但 是 访问 时 间 提 高 得 很 慢 ， 只 有 30 倍 左右 〈 见 图 6-15c)。 这 些 惊 人 的 长 
期 趋势 突出 了 存储 器 和 磁盘 技术 的 一 个 基本 事实 : 增加 密度 〈 从 而 降低 成 本 ) 比 降低 访问 时 
间 更 容易 。 
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DRAM 和 磁盘 的 性 能 滞后 于 CPU 的 性 能 。 正 如 我 们 在 图 6-17d 中 看 到 的 那样 ， 从 1980 年 到 
2010 年 ，CPU 周期 时 间 提 高 了 2500 倍 。 如 果 我 们 看 有 效 周 期 时 间 (effective cycle time) 定义 为 
一 个 单独 的 CPU 〈 处 理 器 ) 的 周期 时 间 除 以 它 的 处 理 器 核 数 ， 那 么 从 1980 年 到 2010 年 的 提高 
还 要 大 一 些 ， 为 10 000 倍 。CPU 性 能 曲线 在 2003 年 附近 的 突然 变化 反映 的 是 多 核 处 理 器 的 出 现 
(参见 后 面 的 解释 )， 在 这 个 分 割 点 之 后 ， 单 个 核 的 周期 时 间 实 际 上 增加 了 一 点 点 ， 然 后 又 开始 下 
降 ， 不 过 比 以 前 的 速度 要 慢 一 些 。 

注意 ， 虽 然 SRAM 的 性 能 滞后 于 CPU 的 性 能 ， 但 是 SRAM 的 性 能 还 是 在 保持 增长 。 然 而 ， 
DRAM 和 磁盘 性 能 与 CPU 性 能 之 间 的 差距 实际 上 是 在 加 大 的 。 直 到 2003 年 左右 多 核 处 理 器 的 
出 现 ， 这 个 性 能 差距 都 是 延迟 的 一 个 函数 ，DRAM 和 磁盘 的 访问 时 间 比 单个 处 理 器 的 周期 时 间 
提高 得 更 慢 。 不 过 ， 随 着 多 核 的 出 现 ， 这 个 性 能 越 来 越 成 为 了 一 个 吞吐 量 的 函数 ， 多 个 处 理 器 核 
并 发 地 向 DRAM 和 磁盘 发 请 求 。 

图 6-18 清楚 地 表面 了 各 种 趋势 ， 以 半 对 数 为 比例 (semi-log scale)， 画 出 了 图 6-17 中 的 访问 
时 间 和 周期 时 间 。 es 
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a) SRAM 趋势 
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b) DRAM 趋势 
m | 2 |; | ; | » | 
ay | 1 | 1 | 60 | io | 20000 | 160000 | 1500000 | 1500000 | 


c) 旋转 磁盘 趋势 


ac | am | 0205 | 0385 | pont | Pm | Pema | coo2 | cot? | — 


CPU 时 钟 频率 | | 
Wm EE EC EI EE 
rum | 000 | 66 | 0 | o | ie | om | 0m | 0 | a0 
oe 
mney | 000 | 60 | 0 | eo | 1 | om | 0 | om | oo 


d) CPU 趋势 


图 6-17 存储 和 处 理 器 技术 发 展 趋势 
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= -8@- SRAM 访 问 时 间 
在 -E- CPU 周期 时 间 


-e- 有 效 CPU 周 期 时 间 


1980 1985 1990 1995 2000 .2003 2005 2010 
年 份 


图 6-18 磁盘 、DRAM 和 CPU 速度 之 间 逐 渐 增 大 的 差距 


正如 我 们 将 在 6.4 节 中 看 到 的 那样 ， 现代 计算 机 频繁 地 使 用 基于 SRAM 的 高 速 缓存 ， 斌 
图 弥补 处 理 器 一 存储 器 之 间 的 差距 。 这 种 方法 行 之 有 效 是 因为 应 用 程序 的 一 个 称 为 局 部 性 
(locality) 的 基本 属性 ， 接 下 来 我 们 就 讨论 这 个 问题 。 


当 周 期 时 间 保 持 不 变 : 多 核 处 理 器 的 到 来 

计算 机 历史 是 由 一 些 在 工业 界 和 整个 世界 产生 深远 变化 的 单个 事件 标记 出 来 的 。 有 趣 的 是 ， 
这 些 变 化 点 趋向 于 每 十 年 发 生 一 次 : 20 世纪 $0 年 代 Fortran 的 提出 ，20 世纪 60 年 代 早 期 IBM 
360 的 出 现 ，20 世纪 70 年 代 早 期 Internet 的 明光 〈 妆 时 称 为 APRANET)，20 世纪 80 年 代 早 期 
IBM PC 的 出 现 ， 以 及 20 世纪 90 年 代 万 维 网 (World Wide Web) 的 出 现 。 

”最 近 的 这 样 的 事件 出 现在 21 世纪 初 ， 当 计算 机 制造 商 迎 头 撞 上 了 所 谓 的 “能 量 墙 ”(power 
wall)， 发 现 他 们 无 法 再 像 以 前 一 样 增 加 CPU 的 时 钟 频率 了 ， 因 为 如 果 那 样 芯片 的 功 耗 会 太 大 。 
解决 方法 是 用 多 个 小 处 理 器 核 (core) 取代 单个 大 处 理 器 ， 从 而 提高 性 能 ， 每 个 完整 的 处 理 器 能 
够 独立 地 、 与 其 他 核 并 行 地 执行 程序 。 这 种 多 核 (multi-core) 方法 部 分 有 效 ， 因 为 一 个 处 理 器 
的 功 耗 正比 于 P=fCyv， 这 里 f 是 时 钟 频率 ，C 是 电容 ， 而 "是 电压 。 电 容 C 大 致 上 正比 于 面积 ， 
所 以 只 要 所 有 核 的 总 面积 不 变 ， 多 核 造成 的 能 耗 就 能 保持 不 变 。 只 要 特征 尺寸 继续 按照 摩尔 定律 
间 数 性 的 下 降 ， 每 个 处 理 器 中 的 核 数 ， 以 及 每 个 处 理 器 的 有 效 性 能 ， 都 会 继续 增加 。 

从 这 个 时 间 点 以 后 ， 计 算 机 越 来 越 快 ， 不 是 因为 时 钟 频率 的 增加 ， 而 是 因为 每 个 处 理 器 中 核 
数 的 增加 ， 也 因为 体系 结构 上 的 创新 提高 了 在 这 些 核 上 运行 的 程序 的 效率 。 我 们 可 以 从 图 6-18 
中 很 清楚 地 看 到 这 个 趋势 。CPU 周期 时 间 在 2003 年 达到 最 低 点 ， 然 后 实际 上 是 有 开始 上 升 的 ， 
然后 变 得 平稳 ， 然 后 又 开始 以 比 以 前 慢 一 些 的 速率 下 降 。 不 过 ， 由 于 多 核 处 理 器 的 出 现 (2004 
年 出 现 双核 ，2007 年 出 现 四 核 )， 有 将 周期 时 间 以 接近 于 以 前 的 速率 持续 下 降 。 

这 练习 题 6.7 ”使 用 图 6-17c 中 从 2000 年 到 2010 年 的 数据 ， 估 计 到 哪 一 年 你 可 以 以 500 美元 的 价格 买 到 

一 个 1PB (10” 字 节 ) 的 旋转 磁盘 。 假 设 美元 价值 不 变 〈 没 有 通货 膨胀 )。 


6.2 局 部 性 


一 个 编写 良好 的 计算 机 程序 党 党 具有 良好 的 局 部 性 locality )。 也 就 是 说 ， 它们 全 向 于 引用 
邻近 于 其 他 最 近 引 用 过 的 数据 项 的 数据 项 ， 或 者 最 近 引 用 过 的 数据 项 本 身 。 这 种 倾向 性 ， 被 称 为 
局 部 性 原理 (principle.of locality )， bs ， 虽 硬件 和 软件 系统 的 设计 和 性 能 都 有 着 
极 大 的 影 啊 。 
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局 部 性 通常 有 两 种 不 同 的 形式 : 时 间 局 部 性 (temporal locality) 和 空间 局 部 性 (spatial 
locality)。 在 一 个 具有 良好 时 间 局 部 性 的 程序 中 ， 被 引用 过 一 次 的 存储 器 位 置 很 可 能 在 不 远 的 将 
来 再 被 多 次 引用 。 在 一 个 具有 良好 空间 局 部 性 的 程序 中 ， 如 果 一 个 存储 器 位 置 被 引用 了 一 次 ， 那 
么 程序 很 可 能 在 不 远 的 将 来 引用 附近 的 一 个 存储 器 位 置 。 

程序 员 应 该 理解 局 部 性 原理 ， 因 为 一 般 而 言 ， 有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 运行 得 
更 快 。 现 代 计 算 机 系统 的 各 个 层次 ， 从 硬件 到 操作 系统 、 再 到 应 用 程序 ， 它 们 的 设计 都 利用 了 局 
部 性 。 在 硬件 层 ， 局 部 性 原理 允许 计算 机 设计 者 通过 引入 称 为 高 速 缓存 看 储 器 的 小 而 快速 的 存储 
器 来 保存 最 近 被 引用 的 指令 和 数据 项 ， 从 而 提高 对 主 存 的 访问 速度 。 在 操作 系统 级 ， 局 部 性 原理 
允许 系统 使 用 主 存 作为 虚拟 地 址 空间 最 近 被 引用 块 的 高 速 缓存 。 类 似 地 ， 操 作 系 统 用 主 存 来 缓存 
磁盘 文件 系统 中 最 近 被 使 用 的 磁盘 块 。 局 部 性 原理 在 应 用 程序 的 设计 中 也 扮演 着 重要 的 角色 。 例 
如 ，Web 浏览 器 将 最 近 被 引用 的 文档 放 在 本 地 磁盘 上 ， 利 用 的 就 是 时 间 局 部 性 。 大 量 的 Web 服 
务 器 将 最 近 被 请 求 的 文档 放 在 前 庙 磁 盘 高 速 缓存 中 ， 这 些 缓存 能 满足 对 这 些 文档 的 请 求 ， 而 不 需 
要 服务 器 的 任何 干预 。 

6.2.1 对 程序 数据 引用 的 局 部 性 

考虑 图 6-19a 中 的 简单 函数 ， 它 对 一 个 向 量 的 元 素 求 和 。 这 个 程序 有 良好 的 局 部 性 吗 ? 为 
了 回答 这 个 问题 ， 我 们 来 看 看 每 个 变量 的 引用 模式 。 在 这 个 例子 中 ， 变 量 sum 在 每 次 循环 炎 代 
中 被 引用 一 次 ， 因 此 ， 对 于 sum 来 说 ， 有 好 的 时 间 局 部 性 。 0 因为 sum 是 标量 ， 对 于 
sum 来 说 ， 没 有 空间 局 部 性 。 

正如 我 们 在 图 6-19b 中 看 到 的 ， 向 量 v 的 元 素 是 被 顺序 读 取 的 ， 一 个 接 一 个 ， 按 照 它们 存储 
在 存储 器 中 的 顺序 (为 了 方便 ， 我 们 假设 数组 是 从 地 址 0 开始 的 )。 因 此 ， 对 于 变量 v， 函 数 有 
很 好 的 空间 局 部 性 ， 但 是 时 间 局 部 性 很 差 ， 因 为 每 个 向 量 元 素 只 被 访问 一 次 。 因 为 对 于 循环 体 
中 的 每 个 变量 ， 这 个 函数 要 么 有 好 的 空间 局 部 性 ， 要 么 有 好 的 时 间 局 部 性 ， 所 以 我 们 可 以 断定 
sumvec 函数 有 良好 的 局 部 性 。 


.int sumvec(int v[N]) 
{ 


| 
2 
3 int i, sum = 0; 
| 
5 


for (i = 0; i < N; i++) 
sum += v[i]; 
return sum; 





图 6-19 a) 一 个 具有 良好 局 部 性 的 程序 ; b) 向 量 v 的 引用 模式 (N=8)。 注 意 如 何 按照 向 量 
元 素 存储 在 存储 器 中 的 顺序 来 访问 它们 


我 们 说 像 sumvec 这 样 顺 序 访问 一 个 向 量 每 个 元 率 的 函数 ， 具 有 步 长 为 1 的 引用 模式 
(stride-1 reference pattern) 〈 相 对 于 元 素 的 大 小 )。 有 时 我 们 称 步 长 为 1 的 引用 模式 为 顺序 引用 模 
式 (sequential reference pattern )。 一 个 连续 向 量 中 ， 每 隔 大 个 元 素 进 行 访 问 ， 就 被 称 为 步 长 为 上 
的 引用 模式 〈stride-k reference pattern)。 步 长 为 1 的 引用 模式 是 程序 中 空间 局 部 性 常见 和 重要 的 
来 源 。 一 般 而 言 ， 随 着 步 长 的 增加 ， 空 间 局 部 性 下 降 。 

对 于 引用 多 维 数 组 的 程序 来 说 ， 步 长 也 是 一 个 很 重要 的 间 题 。 考 上 外 图 6-20a 中 的 函数 
sumarrayrows， 它 对 一 个 二 维 数组 的 元 素 求 和 。 双 重 嵌 套 循环 按照 行 优先 顺序 (row-major 
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order) 读数 组 的 元 素 。 也 就 是 说 ， 内 层 循环 读 第 一 行 的 元 素 ， 然 后 读 第 二 行 ， 依 此 类 推 。 函 数 
sumarrayrows 具有 良好 的 空间 局 部 性 ， 因 为 它 按照 数组 被 存储 的 行 优先 顺序 来 访问 这 个 数组 
( 见 图 6-20b)。 其 结果 是 得 到 一 个 很 好 的 步 长 为 1 的 引用 模式 和 良好 的 空间 局 部 性 。 


int sumarrayrows(int a[M] [N]) 
{ 


int i, j, sum = 0; 


for (i = 0; i < M; i++) 
for (j = 0; j < N; j++) 
sum += al[il] [j] ; 
return sum; 


地 址 0 4 8 16 20 


内 容 -a00 aol ao ao al a12 
访问 顺序 1 2 3 4 5 6 





a) b) 
图 6-20 a) 另 一 个 具有 良好 局 部 性 的 程序 ; b) 数组 a 的 引用 模式 (M= 2，N = 3)。 有 良好 的 
空间 局 部 性 ， 是 因为 数组 是 按照 与 它 存储 在 存储 器 中 一 样 的 行 优先 顺序 来 被 访问 的 


一 些 看 上 去 很 小 的 对 程序 的 改动 能 够 对 它 的 局 部 性 有 很 大 的 影响 。 例 如 ， 图 6-21a 中 的 函数 
sumarraycols 计算 的 结果 和 图 6-20a 中 函数 sumarrayrows 的 一 样 。 唯 一 的 区 别 是 我 们 交换 
了 i 和 7 的 循环 。 这 样 交换 循环 对 它 的 局 部 性 有 何 影 响 ?” 函数 sumarraycols 的 空间 局 部 性 很 
差 ， 因 为 它 按照 列 顺序 来 扫描 数组 ， 而 不 是 按照 行 顺序 。 因 为 C 数组 在 存储 器 中 是 按照 行 顺序 
来 存放 的 ， 结 果 就 得 到 步 长 为 N 的 引用 模式 ， 如 图 6-21b 所 示 。 


int sumarrayrows(int a[M] [N]) 
{ 


int i, j, sum = 0; 


for (i = 0; i < M; i++) 
for (j = 0; j < N; j++) 
sum += al[i] [j]; 
return sum; 


} 


地 址 0 4 8 16 20 
内 容 400 aol ad 9490 All 412 


访问 顺序 1 3 -5 2 4 6 





] 
2 
3 
4 
5 
6 
7 
8 
9 





a) b) 
图 6-21 a) 一 个 空间 局 部 性 很 差 的 程序 ; b) 数组 a 的 引用 模式 (M =2，N=3)。 函 数 的 空间 
局 部 性 很 差 ， 这 是 因为 它 使 用 步 长 为 N 的 引用 模式 来 扫描 存储 器 


6.2.2” 取 指令 的 局 部 性 

因为 程序 指令 是 存放 在 存储 器 中 的 ，CPU 必须 取出 〈 读 出 ) 这些 指令 ， 所 以 我 们 也 能 够 评价 
一 个 程序 关于 取 指 令 的 局 部 性 。 例 如 ， 图 6-19 中 for 循环 体 里 的 指令 是 按照 连续 的 存储 器 顺序 执 
行 的 ， 因 此 循环 有 良好 的 空间 局 部 性 。 因 为 循环 体会 被 执行 多 次 ， 所 以 它 也 有 很 好 的 时 间 局 部 性 。 

代码 区 别 于 程序 数据 的 一 个 重要 属性 是 在 运行 时 它 是 不 能 被 修改 的 。 当 程序 正在 执行 时 ， 
CPU 只 从 存储 器 中 读 出 它 的 指令 。CPU 决 不 会 重 写 或 修改 这 些 指 令 。 
6.2.3 ”局 部 性 小 结 

在 这 一 节 中 ， 我 们 介绍 了 局 部 性 的 基本 思想 ， 还 给 出 了 一 些 量化 评价 一 个 程序 中 局 部 性 的 简 
单 原则 : 

* 重复 引用 同一 个 变量 的 程序 有 良好 的 时 间 局 部 性 。 

“对 于 具有 步 长 为 大 的 引用 模式 的 程序 ， 步 长 越 小 ， 空 间 局 部 性 越 好 。 具 有 步 长 为 1 的 引 

用 模式 的 程序 有 很 好 的 空间 局 部 性 。 在 存储 器 中 以 大 步 长 跳 来 跳 去 的 程序 空间 局 部 性 会 
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很 差 。 
对 于 取 指令 来 说 ， 循环 有 好 的 时 问 和 空间 局 部 性 循环 体 越 小 ， 循 环 迭 代 次 数 越 多 ， 局 部 
在 本 章 后 面 在 我 们 学 习 了 高 速 缓存 存储 器 以 及 它 们 是 如 何 工作 的 之 后 ， 我 们 会 介绍 如 何 用 高 速 
缓存 命中 率 和 不 命中 率 来 量化 局 部 性 的 概念 。 你 还 会 弄 明白 为 什么 有 良好 局 部 性 的 程序 通常 比 局 
部 性 差 的 程序 运行 得 更 快 。 尽 管 如 此 ， 了 人 解 如 何 看 一 眼 源 代码 就 能 获得 对 程序 中 局 部 性 的 高 层次 
的 认识 ， 是 程序 员 要 掌握 的 一 项 有 用 而 且 重 要 的 技能 。 
练习 题 6.8 ”改变 下 面 函数 中 循环 的 顺序 ， 使 得 它 以 步 长 为 1 的 引用 模式 扫描 三 维 数组 a : 


int sumarray3d(int a[N] [N] LN] ) 





| 

2 攻 

3 int i, j, k, sum = 0; 

4 

5 for (i = 0; i < N; i++) { 

6 for (j = 0; j < N; j++) +{ 
7 for (k = 0; k < N;.k++) { 
8 sum += a[k] [i] [j]; 
9 } ， 
10 上 
11 } 
12 return sunm; 
13 3 


区 泣 练习 题 6.9 图 6-22 中 的 三 个 函数 ， 以 不 同 的 空间 局 部 性 程度 ， 执行 相同 的 操作 。 请 对 这 些 函 数 就 空 
辣 局 部 性 进行 排 诺 。 解释 你 是 如 何 得 到 排序 结果 的 。 





void cleari(point *p, int n) 
和 
int i, j; 
#define N 1000 


for (i = 0; i < n; i++) { 


typedef struct { 
int vell[3]; 
int acc[3] ; 

} point ; 


for (j = 0; j < 3; j++) 
p[i] .vel[j] = 0; 

for (j = 0; j < 3; j++) 
p[lij .acc[j] = 0; 





point p[N]; 


a) structs 数组 b) clearl 函数 













void clear3(point *p, int n) 
{ 
; 


hn 


void clear2(point *p, int n)- 
A 
int i, j; 
for (i = 0; i < ni i++) { 六 for (j = 0; j < 3; j++) + 
for (j =0; j <3; j++) {| 
p[i] .vel[j] = 
pli] .acc[j] = 0; 


for (i = 0; i < n; i++) 
pli] .vel[j] = 0; 

for (i = 0; i < n; i++) 
pli] .acc[j] = 0;: 





Co 
+- OP 和 UN 人 ww 一 





c) clear2 函数 d) clear3 函数 


图 6-22 练习 题 6.9 的 代码 示例 
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6.3 “存储 器 层次 结构 

6.1 节 和 6.2 节 描 述 了 存储 技术 和 计算 机 软件 的 一 些 基 本 的 和 持久 的 属性 : 

。 存 储 技术 : 不 同 存储 技术 的 访问 时 间 差 异 很 大 。 速 度 较 快 的 技术 每 字 节 的 成 本 要 比 速度 较 

慢 的 技术 高 ， 而 且 容 量 较 小 。CPU 和 主 存 之 间 的 速度 差距 在 增 大 。 

* 计算 机 软件 : 一 个 编写 良好 的 程序 倾向 于 展示 出 良好 的 局 部 性 。 

计算 中 一 个 喜人 的 巧合 是 ， 硬 件 和 软件 的 这 些 基 本 属性 互相 补充 得 很 完美 。 它 们 这 种 相互 补 
充 的 性 质 使 人 想到 一 种 组 织 存储 器 系统 的 方法 ， 称 为 存储 器 层次 结构 memory hierarchy)， 所 有 
的 现代 计算 机 系统 中 都 使 用 了 这 种 方法 。 图 6-23 展示 了 一 个 典型 的 存储 器 层次 结构 。 一 般 而 言 ， 
从 高 层 往 底层 走 ， 存 储 设备 变 得 更 慢 、 更 便宜 和 更 大 。 在 最 高 层 (L0)， 是 少量 快速 的 CPU 寄 
存 器 ，CPU 可 以 在 一 个 时 钟 周期 内 访问 它们 。 接 下 来 是 一 个 或 多 个 小 型 到 中 型 的 基于 SRAM 的 
高 速 缓存 存储 器 ， 可 以 在 几 个 CPU 时 钟 周期 内 访问 它们 。 然 后 是 一 个 大 的 基于 DRAM 的 主 存 ， 
可 以 在 几 十 到 几 百 个 时 钟 周 期 内 访问 它们 。 接 下 来 是 慢 速 但 是 容量 很 大 的 本 地 磁盘 。 最 后 ， 有 些 
系统 甚至 包括 了 一 层 附 加 的 远程 服务 器 上 的 磁盘 ， 要 通过 网 络 来 访问 它们 。 例 如 ， 像 安德鲁 文件 
系统 (Andrew File System，AFS ) 或 者 网 络 文件 系统 (Network File System，NFS) 这 样 的 分 布 
式 文 件 系 统 ， 允许 程序 访问 存储 在 远程 的 网 络 服务 器 上 的 文件 。 类 似 地 ， 万 维 网 允许 程序 访问 存 
储 在 世界 上 任何 地 方 的 Web 服务 器 上 的 远程 文件 。 
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图 6-23 ”存储 器 层次 结构 


本 地 磁盘 保存 着 从 远程 网 络 
服务 器 磁盘 上 取出 的 文件 


其 他 的 存储 器 层次 结构 

我 们 向 你 展示 了 一 个 存储 器 层次 结构 的 示例 ， 但 是 其 他 的 组 合 也 是 可 能 的 ， 而 且 确实 也 很 党 
见 。 例 如 ， 许 多 站 点 将 本 地 磁盘 备份 到 存档 的 磁带 上 。 其 中 有 些 站 点 ， 在 需要 时 是 由 人 来 手工 地 
装 好 磁带 的 。 而 在 其 中 其 他 站 点 则 是 由 磁带 机 器 人 自动 地 完成 这 项 任务 的 。 无 论 在 哪 种 情况 下 ， 
磁带 都 是 存储 器 层次 结构 中 的 一 层 ， 在 本 地 磁盘 那 一 层 下 面 ， 那 些 一 般 的 原则 也 同样 适用 于 它 。 
磁带 每 字 节 比 磁盘 更 便宜 ， 它 允许 站 点 将 本 地 磁盘 的 多 个 快照 硝 档 。 代 价 是 磁带 的 访问 时 间 要 比 
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磁盘 的 更 发。 来 看 另 一 个 例子 ， 辐 态 硬盘 在 且 储 器 层次 结构 中 扮演 着 越 来 越 重要 的 角色 ， 连 接 起 
DRAM 和 旋转 磁盘 之 间 的 鸿沟。 
6.3.1 存储 器 层次 结构 中 的 缓存 和 / 

一 般 而 言 ， 高 速 缓存 (cache， 读 作 “cash”) 是 一 个 小 而 快速 的 存储 设备 ， 它 作为 存储 在 
更 大 、 也 更 慢 的 设备 中 的 数据 对 象 的 缓冲 区 域 。 使 用 高 速 级 在 的 过 程 称 为 组 丫 〈caching， 读 作 
“cashing”)。 

存储 器 层次 结 # 构 的 中 心思 想 是 ， 对 于 每 个 k， 位 于 k 层 的 更 快 更 小 的 存储 设备 作为 位 于 K+1 
层 的 更 大 更 慢 的 存储 设备 的 缓存 。 换 名 话说 ， 层 次 结构 中 的 每 一 层 都 缓存 来 自 较 低 一 层 的 数据 对 
象 。 例 如 ， 本 地 磁盘 作为 通过 网 络 从 远程 磁盘 取出 的 文件 〈 例 如 Web 页 面 ) 的 缓存 ， 主 存 作 为 
本 地 磁盘 上 数据 的 缓存 ， 依 此 类 推 ， 直 到 最 小 的 缓存 一 一 CPU 寄存 器 集合 。 

图 6-24 展示 了 存储 器 层次 结构 中 缓存 的 一 般 性 概念 。 第 ktl 层 的 存储 器 被 划分 成 连续 的 
数据 对 象 片 (chunk)， 称 为 块 〈(block)。 每 个 块 都 有 一 个 唯一 的 地 址 或 名 字 ， 使 之 区 别 于 其 他 
的 块 。 块 可 以 是 固定 大 小 的 (通常 是 这 样 的 )， 也 可 以 是 可 变 大 小 的 (如 存储 在 Web 服务 器 上 
的 远程 HIML 文件 )。 例 如 ， 图 6-24 中 第 在 ktl1 层 存 储 器 被 划分 成 16 个 大 小 固定 的 块 ， 编 号 为 
0 ~ 13。 

类 似 地 ， 第 大 层 的 存储 器 被 划分 成 较 少 的 块 的 集合 ， 每 个 块 的 大 小 与 夺 1 层 的 块 的 大 小 一 
样 。 在 任何 时 刻 ， 第 下层 的 缓存 包含 第 ktl 层 块 的 一 个 子 集 的 拷贝 。 例 如 ， 在 图 6-24 中 ， 第 上 
层 的 缓存 有 4 个 块 的 空间 ， 当 前 包含 块 4、9、14 和 3 的 找 贝 。 

数据 总 是 以 块 大 小 为 传送 单元 (transfer unit) 在 第 大 层 和 第 k+l 层 之 间 来 回 拷贝 的 。 虽 然 在 
层次 结构 中 任何 一 对 相 邻 的 层次 之 间 块 大 小 是 固定 的 ， 但 是 其 他 的 层次 对 之 间 可 以 有 不 同 的 块 大 
小 。 例 如 ， 在 图 6-23 中 ，L1 和 LIL0 之 间 的 传送 通常 使 用 的 是 1 个 字 的 块 。L2 和 LI1 之 间 (以 及 
L3 和 L2 之 间 、L4 和 L3 之 间 ) 的 传送 通常 使 用 的 是 8 ~ 16 个 字 的 块 。 而 L5 和 LL4 之 间 的 传送 
用 的 是 大 小 为 几 百 或 几 千 字 节 的 块 。 一 般 而 言 ， 层 次 结构 中 较 低 层 〈 离 CPU 较 远 ) 的 设备 的 访 
问 时 间 较 长 ， 因 此 为 了 补偿 这 些 较 长 的 访问 时 间 ， 倾 向 于 使 用 较 大 的 块 。 
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图 6-24 ”存储 器 层次 结构 中 基本 的 缓存 原理 


1 有 全 中 | : 

当 程序 需要 第 k+l 层 的 某 个 数据 对 象 4 时 ， 它 首先 在 当前 存储 在 第 k 层 的 一 个 块 中 查找 a。 
如 果 4 刚好 缓存 在 第 层 中 ， 那 么 就 是 我 们 所 说 的 丝 存 命中 cache hit)。 该 程序 直接 从 第 层 读 
取 d， 根 据 存储 器 层次 结构 的 性 质 ， 这 要 比 从 第 kt1 层 读 取 d 更 快 。 例 如， 一 个 有 良好 时 间 局 部 
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性 的 程序 可 以 从 块 14 中 读 出 一 个 数据 对 象 ， 得 到 一 个 对 第 层 的 缓存 命中 。 

2. 缓存 不 命中 

另 一 方面 ， 如 果 第 大 层 中 没有 缓存 数据 对 象 4， 那 么 就 是 我 们 所 说 的 缓存 不 命中 〈cache 
miss)。 当 发 生 缓存 不 命中 时 ， 第 下层 的 缓存 从 第 夺 1 层 缓存 中 取出 包含 4 的 那个 块 ， 如 果 第 天 
层 的 缓存 已 经 满 了 的 话 ， 可 能 就 会 覆盖 现存 的 一 个 块 。 

覆盖 一 个 现存 的 块 的 过 程 称 为 替换 (replacing) 或 驱逐 eA 这 个 块 。 被 驱逐 的 这 个 块 
有 时 也 称 为 牺牲 块 (victim block)。 决 定 该 替换 哪个 块 是 由 缓存 的 替换 策略 〈replacement policy) 
来 控制 的 。 例 如 ， 一 个 具有 随机 替换 策略 的 缓存 会 随机 选择 一 个 牺牲 块 。 一 个 具有 最 近 最 少 被 使 
用 (LRU) 替换 策略 的 缓存 会 选择 那个 最 后 被 访问 的 时 间距 现在 最 远 的 块 。 

在 第 层 缓 存 从 第 ktl 层 取出 那个 块 之 后 ， 程 序 就 能 像 前 面 一 样 从 第 层 读 出 4 了。 例如 ， 
在 图 6-24 中 ， 在 第 丰 层 中 读 块 12 中 的 一 个 数据 对 象 ， 会 导致 一 个 缓存 不 命中 ， 因 为 块 12 当前 
不 在 第 上层 缓存 中 。 一 旦 把 块 12 从 第 寻 1 层 撕 贝 到 第 层 之 后 ， 它 就 会 保持 在 那里 ， 等 待 稍 后 
的 访问 。 

3. 缓存 不 命中 的 种 类 

区 分 不 同 种 类 的 缓存 不 命中 有 时 候 是 很 有 帮助 的 。 如 果 第 下层 的 缓存 是 空 的， 那么 对 任何 数 
据 对 象 的 访问 都 会 不 命中 。 一 个 空 的 缓存 有 时 称 为 冷 组 看 〈cold cache)， 此 类 不 命中 称 为 强制 性 
不 命中 (compulsory miss) 或 冷 不 命中 〈cold miss)。 冷 不 命中 很 重要 ， 因 为 它们 通常 是 短暂 的 
事件 ， 不 会 在 反复 访问 存储 器 使 得 缓存 暧 身 (warmed up) 之 后 的 稳定 状态 中 出 现 。 

只 要 发 生 了 不 命中 ， 第 左 层 的 缓存 就 必须 执行 某 个 放置 策略 (placement policy)， 确 定 把 它 
从 第 ktt1 层 中 取出 的 块 放 在 哪里 。 最 灵活 的 替换 策略 是 允许 来 自 第 k+l 层 的 任何 块 放 在 第 下层 的 
任何 块 中 。 对 于 存储 器 层次 结构 中 高 层 的 缓存 (靠近 CPU)， 它 们 是 用 硬件 来 实现 的 ， 而 且 速 度 
是 最 优 的 ， 这 个 策略 实现 起 来 通常 很 昂贵 ， 因 为 随机 地 放置 块 ， 定 位 起 来 代价 很 高 。 

因此 ， 硬 件 缓存 通常 使 用 的 是 更 严格 的 放置 策略 ， 这 个 策略 将 第 kt1l 层 的 某 个 块 限 制 放置 在 
第 下层 块 的 一 个 小 的 子 集中 〈 有 时 只 是 一 个 块 )。 例 如 ， 在 图 6-24 中 ， 我 们 可 以 确定 第 ktl1 层 的 
块 i 必须 放置 在 第 k 层 的 块 (i mod 4) 中 。 例 如 ， 第 kt1 层 的 块 0、4、8 和 12 会 映射 到 第 层 
的 块 0 ; 块 1、5、9 和 13 会 映射 到 块 1 ; 依 此 类 推 。 注 意 ， 图 6-24 中 的 示例 缓存 使 用 的 就 是 这 
个 策略 。 

这 种 限制 性 的 放置 策略 会 引起 一 种 不 命中 ， 称 为 冲突 不 命中 (conflict miss)， 在 这 种 情况 
下 ， 缓 存 足 够 大 ， 能 够 保存 被 引用 的 数据 对 象 ， 但 是 因为 这 些 对 象 会 映射 到 同一 个 缓存 块 ， 缓 存 
会 一 直 不 命中 。 例 如 ， 在 图 6-24 中 ， 如 果 程 序 请 求 块 0， 然 后 块 8， 然 后 块 0， 然 后 块 8， 依 此 
类 推 ， 在 第 k 层 的 缓存 中 ， 对 这 两 个 块 的 每 次 引用 都 会 不 命中 ， 即 使 是 这 个 缓存 总 共 可 以 容纳 4 
个 块 。 

程序 通常 是 按照 一 系列 阶段 〈 如 循环) 来 运行 的 ， 每 个 阶段 访问 缓存 块 的 某 个 相对 稳定 不 
变 的 集合 。 例 如 ， 一 个 嵌 套 的 循环 可 能 会 反复 地 访问 同一 个 数组 的 元 素 。 这 个 块 的 集合 称 为 这 
个 阶段 的 工作 集 (working set)。 当 工作 集 的 大 小 超过 缓存 的 大 小 时 ， 缓 存 会 经 历 容 量 不 命中 
(capacity miss)。 换 铝 话 说 ， 缓 存 就 是 太 小 了 ， 不 能 处 理 这 个 工作 和 集 。 

4. 缓存 管理 

正如 我 们 提 到 过 的 ， 存 储 器 层次 结构 的 本 质 是 ， 每 一 层 存储 设备 都 是 较 低 一 层 的 缓存 。 在 每 
一 层 上 ， 某 种 形式 的 逻辑 必须 管理 缓存 。 这 里 ， 我 们 的 意思 是 指 某 个 东西 要 将 缓存 划分 成 块 ， 在 
不 同 的 层 之 间 传 送 块 ， 判 定 是 命中 还 是 不 命中 ， 并 处 理 它们 。 管 理 缓存 的 逻辑 可 以 是 硬件 、 软 
件 ， 或 是 两 者 的 结合 。 

例如 ， 编 译 器 管理 寄存 器 文件 ， 缓 存 层次 结构 的 最 高 屋 。 它 决定 当 发 生 不 命中 时 何 时 发 射 加 
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载 ， 以 及 确定 哪个 寄存 器 来 存放 数据 。L1、L2 和 1L3 层 的 缓存 完全 是 由 内 置 在 缓存 中 的 硬件 逻辑 
来 管理 的 。 在 一 个 有 虚拟 存储 器 的 系统 中 ，DRAM 主 存 作 为 存储 在 磁盘 上 的 数据 块 的 缓存 ， 是 
由 操作 系统 软件 和 CPU 上 的 地 址 翻译 硬件 共同 管理 的 。 对 于 一 个 具有 像 AFS 这 样 的 分 布 式 文件 
系统 的 机 器 来 说 ， 本 地 磁盘 作为 缓存 ， 它 是 由 运行 在 本 地 机 器 上 的 AFS 客户 端 进程 管理 的 。 在 
大 多 数 时 候 ， 缓 存 都 是 自动 运行 的 ， 不 需要 程序 采取 特殊 的 或 显 式 的 行动 。 
6.3.2 存储 器 层次 结构 概念 小 结 本 
概括 来 说 ， 基 于 缓存 的 存储 器 层次 结构 行 之 有 效 ， 是 因为 较 慢 的 存储 设备 比较 快 的 存储 设备 
更 便宜 ， 还 因为 程序 往往 展示 局 部 性 : 
“利用 时 间 局 部 性 : 由 于 时 间 局 部 性 ， 同 一 数据 对 象 可 能 会 被 多 次 使 用 。 一 旦 一 个 数据 对 象 
在 第 一 次 不 命中 时 饼 找 贝 到 缓存 中 ， 我 们 就 会 期 望 后面 对 该 目标 有 一 系列 的 访问 命中 。 因 
为 缓存 比 低 一 层 的 存储 设备 更 快 ， 对 后 面 的 命中 的 服务 会 比 最 开始 的 不 命中 快 很 多 。 
“ 利用 空间 局 部 性 : 块 通常 包含 有 多 个 数据 对 象 。 由 于 空间 局 部 性 ， 我 们 会 期 望 后 面 对 该 块 
中 其 他 对 象 的 访问 能 够 补偿 不 命中 后 拷贝 该 块 的 花费 。 
现代 系统 中 到 处 都 使 用 了 缓存 。 正 如 从 图 6-25 中 能 够 看 到 的 那样 ，CPU 芯片 、 操 作 系 统 、 
分 布 式 文件 系统 中 和 万 维 网 上 都 使 用 了 缓存 。 各 种 各 样 硬件 和 软件 的 组 合 构成 和 管理 着 缓存 。 注 
意 ， 图 6-25 中 有 大 量 我 们 还 未 涉及 的 术语 和 缩写 。 在 此 我 们 包括 这 些 术语 和 缩写 是 为 了 说 明 绥 
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图 6-25 缓存 在 现代 计算 机 系统 中 无 处 不 在 。TLB : 翻译 后 备 缓冲 器 (‘Translation Lookaside Buffer) ; 
”MMU : 存储 器 管理 单元 (Memory Management Unit) ; OS : 操作 系统 (Operating System ) ; AFS : 
安德鲁 文件 系统 (Andrew File System) ; NFS : 网 络 文件 系统 (Network File System ) 


6.4 高速 缓存 存储 器 

早期 计算 机 系统 的 存储 器 层次 结构 只 有 三 层 : CPU 寄存 器 、DRAM 主 存储 器 和 磁盘 存储 。 
不 过 ， 由 于 CPU 和 主 存 之 间 逐 渐 增 大 的 差距 ， 系 统 设计 者 被 迫 在 CPU 寄存 器 文件 和 主 存 之 间 揪 
人 了 一 个 小 的 SRAM 高 速 缓存 存储 器 ， 称 为 工 1 高 速 缓存 (一 级 缓存 )， 如 图 6-26 所 示 。L1 高 
速 缓 存 的 访问 速度 几乎 和 寄存 器 一 样 快 ， 典 型 地 是 2 ~ 4 个 时 钟 周期 。 

随 着 CPU 和 主 存 之 间 的 性 能 差距 不 断 增 大 ， 系 统 设计 者 在 L1 高 速 缓存 和 主 存 之 间 又 揪 人 了 
一 个 更 大 的 高 速 缓 存 ， 称 为 L2 高 速 缓存 ， 可 以 在 大 约 10 个 时 钟 周 期 内 访问 到 它 。 有 些 现代 系 
统 还 包括 有 一 个 更 大 的 高 速 缓存 ， 称 为 L3 高 速 缓存 ,在 存储 器 层次 结构 中 ， 它 位 于 L2 高 速 组 
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存 和 主 存 之 间 ， 可 以 在 30 或 者 40 个 周期 内 访问 到 它 。 虽 然 安排 上 有 相当 多 的 变化 ， 但 是 通用 原 
则 是 一 样 的 。 对 于 下 一 节 中 的 讨论 ， 我 们 会 假设 一 个 简单 的 存储 器 层次 结构 ，CPU 和 主 存 之 间 
只 有 一 个 1 高速 缓存 。 


CPU 芯片 






图 6-26 ”高 速 缓存 存储 器 的 典型 总 线 结构 


6.4.1 通用 的 高 速 缓存 存储 器 结构 。 
考虑 一 个 计算 机 系统 ， 其 中 每 个 存储 器 地 址 有 m 位 ， 形 成 M=2" 个 不 同 的 地 址 。 如 图 6-27a 

所 示 ， 这 样 一 个 机 器 的 高 速 缓存 被 组 织 成 一 个 有 5=2 个 高 速 缓存 组 (cache set) 的 数组 。 每 个 组 
包含 已 个 高 速 缓存 行 (cache line)。 每 个 行 是 由 一 个 B=2 字 节 的 数据 块 (block) 组 成 的 ， 一 
有 效 位 《valid bit) 指明 这 个 行 是 否 包 含有 意义 的 信息 ， 还 有 三 m 一 (bts) 个 标记 位 (tag bit) (是 
当前 块 的 存储 器 地 址 的 位 的 一 个 子 集 )， 它 们 唯一 地 标识 存储 在 这 个 高 速 缓存 行 中 的 块 。 

每 行 1 个 每 行 ! 个 每 个 高 速 缓存 块 

有 效 位 有 效 位 有 B=2 字 节 


Er 






组 0: |. 每 组 & 行 


FB RT 
i 








i 






组 S-1: | 
高 速 缓存 大 小 C=B xEx6 数 据 字 节 
3) 
位 s 位 b 位 
地 址 : TT] 
m—l 0 
标记 组 索引 块 偏 移 
b ) 


图 6-27 高 速 绥 存 (S5，E，B，m) 的 通用 组 织 。a) 高 速 缓存 是 一 个 高 速 缓存 组 的 数组 ， 每 个 
组 包含 一 个 或 多 个 行 ， 每 个 行 包 含 一 个 有 效 位 ， 一 些 标记 位 ， 以 及 一 个 数据 块 ; b) 
高 速 缓存 的 结构 将 m 个 地 址 位 划分 成 了 :个 标记 位 、s 个 组 索引 位 和 4 个 块 偏 移 位 
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一 般 而 言 ， 高 速 缓存 的 结构 可 以 用 元 组 (S$，E，B，m) 来 描述 。 高 速 缓存 的 大 小 (或 容量 ) 
C 指 的 是 所 有 块 的 大 小 的 和 。 标 记 位 和 有 效 位 不 包括 在 内 。 因 此 ，C=SXEXB。 
当 一 条 加 载 指 令 指 示 CPU 从 主 存 地 址 4 中 读 一 个 字 时 ， 它 将 地 址 4 发 送 到 高 速 缓存 。 如 果 


”高 速 缓存 正 保 存 着 地 址 4 处 那个 字 的 拷贝 ， 它 就 立即 将 那个 字 发 回 给 CPU。 那 么 高 速 缓存 如 何 


知道 它 是 否 包含 地 址 4 处 那个 字 的 拷贝 的 呢 ? 高 速 缓存 的 结构 使 得 它 能 通过 简单 地 检查 地 址 位 ， 
找到 所 请 求 的 字 ， 类 似 于 使 用 极其 简单 的 散 列 函数 的 散 列 表 。 下 面 介绍 它 是 如 何 工作 的 : 

参数 5S 和 8B 将 m 个 地 址 位 分 为 了 三 个 字段 ， 如 图 6-27b 所 示 。4 中 s 个 组 索引 位 是 一 个 到 8 
个 组 的 数组 的 索引 。 第 一 个 组 是 组 0， 第 二 个 组 是 组 1， 依 此 类 推 。 组 索引 位 被 解释 为 一 个 无 符 
号 整数 ， 它 告诉 我 们 这 个 字 必须 存储 在 哪个 组 中 。 一 旦 我 们 知道 了 这 个 字 必 须 放 在 哪个 组 中 ，4 
中 的 + 个 标记 位 就 告诉 我 们 这 个 组 中 的 哪 一 行 包含 这 个 字 〈 如 果 有 的 话 )。 当 且 仅 当 设置 了 有 效 
位 并 且 该 行 的 标记 位 与 地 址 4 中 的 标记 位 相 匹配 时 ， 组 中 的 这 一 行 才 包 含 这 个 字 。 一 旦 我 们 在 
由 组 索引 标识 的 组 中 定位 了 由 标号 所 标识 的 行 ， 那 么 b 个 块 偏 移 位 给 出 了 在 8 个 字 节 的 数据 块 
中 的 字 偏 移 。 

你 可 能 已 经 注意 到 了 ， 对 高 速 缓 存 的 描述 使 用 了 很 多 符号 。 图 6-28 对 这 些 符号 做 了 个 小 结 ， 
供 你 参考 。 


















6-28 高速 缓存 参数 小 结 


练习 题 6.10 ”下 表 给 出 了 几 个 不 同 的 高 速 缓存 的 参数 。 确 定 每 个 高 速 缓存 的 高 速 缓存 组 数 (8S)、 标 记 
位 数 (t)、 组 索引 位 数 (s) 以 及 块 偏 移 位 数 (b)。 








6.4.2 ”直接 映射 高 速 缓存 

根据 已 〈 每 个 组 的 高 速 缓存 行 数 ) 高 速 缓存 被 分 为 不 同 的 类 。 每 个 组 只 有 一 行 CE-1) 的 高 
速 缓存 称 为 直接 映射 高 速 缓存 〈direct-mapped cache) ( 见 图 6-29)。 直 接 映 射 高 速 缓存 是 最 容易 
实现 和 理解 的 ， 所 以 我 们 会 以 它 为 例 来 说 明 一 些 高 速 缓存 工作 方式 的 总 体 思 想 。 
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| E= 每 组 1 行 












组 1: | [有 效 | [ 标记 | [高 速 组 存世 | 
组 S-1: [车 记 | [高 速 绥 存 类” |] 


图 6-29 ”直接 映射 高 速 缓存 (EB=1)。 每 个 组 只 有 一 行 


假设 我 们 有 这 样 一 个 系统 ， 它 有 一 个 CPU、 一 个 寄存 器 文件 、 一 个 Ll 高速 缓存 和 一 个 主 
存 。 当 CPU 执行 一 条 读 存储 器 字 w 的 指令 ， 它 向 L1 高 速 缓 存 请 求 这 个 字 。 如 果 Ll 高 速 缓存 有 
w 的 一 个 缓存 的 拷贝 ， 那 么 就 得 到 L1 高 速 缓存 命中 ， 高 速 缓存 会 很 快 抽取 出 w， 并 将 它 返 回 给 
CPU。 否 则 就 是 缓存 不 命中 ， 当 Ll 高速 缓存 回 主 存 请 求 包含 w 的 块 的 一 个 找 贝 时 ，CPU 必须 
等 待 。 当 被 请 求 的 块 最 终 从 存储 器 到 达 时 ，L1 高 速 缓存 将 这 个 块 存放 在 它 的 一 个 高 速 缓存 行 里 ， 
从 被 存储 的 块 中 抽取 出 字 w,: 然后 将 它 返回 给 CPU。 高 速 缓存 确定 一 个 请 求 是 否 命 中 ， 然 后 抽 
取出 被 请 求 的 字 的 过 程 ， 分 为 三 步 : 1) 组 选择 ，2) 行 匹 配 ，3) 字 抽 取 。 

1. 直接 映射 高 速 缓存 中 的 组 选择 

在 这 一 步 中 ， 高 速 缓 存 从 w 的 地 址 中 间 抽 取出 s 个 组 索引 位 。 这 些 位 被 解释 成 一 个 对 应 于 一 
个 组 号 的 无 符号 整数 。 换 句 话 来 说 ， 如 果 我 们 把 高 速 缓存 看 成 是 一 个 关于 组 的 一 维 数组 ， 那 么 这 
些 组 索引 位 就 是 一 个 到 这 个 数组 的 索引 。 图 6-30 展示 了 直接 映射 高 速 缓存 的 组 选择 是 如 何 工作 
的 。 在 这 个 例子 中 ， 组 索引 位 00001, 被 解释 为 一 个 选择 组 1 的 整数 索引 。 


1 | | 








组 $-1， | [有 效 ] [标记 ] [高速 绥 邦 决 ”| 
0 


1 一 ] 


标记 。 ”组 索引 块 偏 移 
图 6-30 ”直接 映射 高 速 缓存 中 的 组 选择 


2. 直接 映射 高 速 缓存 中 的 行 匹配 

既然 在 上 一 步 中 我 们 已 经 选择 了 某 个 组 接 下 来 的 一 步 就 要 确定 是 否 有 字 w 的 一 个 拷贝 存 
储 在 组 包含 的 一 个 高 速 缓存 行 中 。 在 直接 映射 高 速 缓存 中 这 很 容易 ， 而 且 很 快 ， 这 是 因为 每 个 
组 只 有 一 行 。 当 且 仅 当 设置 了 有 效 位 ， 而 且 高 速 缓存 行 中 的 标记 与 w 的 地 址 中 的 标记 相 匹 配 时 ， 
这 一 行 中 包含 w 的 一 个 拷贝 。 

图 6-31 展示 了 直接 映射 高 速 缓存 中 行 匹配 是 如 何 工 作 的。 在 这 个 例子 中 ， 选 中 的 组 中 只 有 
一 个 高 速 缓存 行 。 这 个 行 的 有 效 位 设置 了 ， 所 以 我 们 知道 标记 和 块 中 的 位 是 有 意义 的 。 因 为 这 个 
高 速 缓 仓 行 中 的 标记 位 与 地 址 中 的 标记 位 相 匹配 ， 所 以 我 们 知道 我 们 想 要 的 那个 字 的 一 个 拷贝 确 
实 存储 在 这 个 行 中 。 换 句 话 说， 我 们 得 到 一 个 缓存 命中 。 另 一 方面 ， 如 果 有 效 位 没有 设置 ， 或 者 
标记 不 相 匹 配 ， 那 么 我 们 就 得 到 一 个 缓存 不 命中 。 

3. 直接 映射 高 速 缓存 中 的 字 选 择 

一 旦 命中 ， 我 们 知道 w 就 在 这 个 块 中 的 某 个 地 方 。 最 后 一 步 确定 所 需要 的 字 在 块 中 是 从 哪 
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里 开始 的 。 如 图 6-31 所 示 ， 块 偏 移 位 提供 了 所 需要 的 字 的 第 一 个 字 节 的 偏 移 。 就 像 我 们 把 高 速 
缓存 看 成 一 个 行 的 数组 一 样 ， 我 们 把 块 看 成 一 个 字 节 的 数组 ， 而 字 节 偏 移 是 到 这 个 数组 的 一 个 过 
引 。 在 这 个 示例 中 ， 块 偏 移 位 是 100,， 它 表明 w 的 拷贝 是 从 块 中 的 字 节 4 开始 的 〈 我 们 假设 字 
长 为 4 字 节 )。 


=1? (1) 有 效 位 必须 是 设置 了 的 。 


选择 的 组 (i) : 


(2 ) 高 速 缓存 行 中 的 标 
记 位 必须 与 地 址 中 =? 
的 标记 位 相 匹 配 。 






(3 ) 如 果 (1) 和 (2) 满足 ， 
那么 高 速 缓存 命中 ， 块 偏 移 就 
选择 出 了 起 始 字 节 ， 


My sf b 位 
0110 一 一 一 10 一 


m-l 
标记 组 索引 块 偏 移 
图 6-31 直接 映射 高 速 缓存 中 的 行 匹配 和 字 选 择 。 在 高 速 缓存 块 中 ，w 表示 字 w 的 低位 字 节 ， 
wi 是 下 一 个 字 节 ， 依 此 类 推 


4. 直接 映射 高 速 缓存 中 不 命中 时 的 行 替换 

如 果 缓 存 不 命中 ， 那 么 它 需 要 从 存储 器 层次 结构 中 的 下 一 层 取出 被 请 求 的 块 ， 然 后 将 新 的 块 
存储 在 组 索引 位 指示 的 组 中 的 一 个 高 速 缓存 行 中 。 一 般 而 言 ， 如 果 组 中 都 是 有 效 高 速 缓存 行 了 ， 
那么 必须 要 驱逐 出 一 个 现存 的 行 。 对 于 直接 映射 高 速 缓存 来 说 ， 每 个 组 只 包含 有 一 行 ， 替 换 策 略 
非常 简单 : 用 新 取出 的 行 替换 当前 的 行 。 

5. 综合 : 运行 中 的 直接 映射 高 速 缓存 

高 速 缓存 用 来 选择 组 和 标识 行 的 机 制 极 其 简单 。 必 须要 这 样 ， 因 为 硬件 必须 在 几 个 纳 秒 的 时 
间 内 完成 这 些 工作 。 不 过 ， 用 这 种 方式 来 处 理 位 对 我 们 人 来 说 是 很 令 人 困惑 的 。 一 个 具体 的 例子 
能 帮助 我 们 解释 清楚 这 个 过 程 。 假 设 我 们 有 一 个 直接 映射 高 速 缓存 ， 描述 如 下 

(S, E, B, m) =(4, 1, 2, 4) 

换 句 话说 ， 高 速 缓存 有 四 个 组 ， 每 个 组 一 行 ， 每 个 块 2 个 字 节 ， 而 地 址 是 4 位 的 。 我 们 
还 假设 每 个 字 都 是 单字 节 的 。 当 然 ， 这 样 一 些 假设 完全 是 不 现实 的 ， 但 是 它们 能 使 示例 保持 
简单 。 

当 你 初学 高 速 缓存 时 ， 列 举 出 整个 地 址 空间 并 划分 好 位 是 很 有 帮助 的 ， 就 像 我 们 在 图 6-32 
中 对 4 位 的 示例 所 做 的 那样 。 关 于 这 个 列举 出 的 空间 ， 有 一 些 有 趣 的 事情 值得 注意 : 

* 标记 位 和 索引 位 连 起 来 唯一 地 标识 了 存储 器 中 的 每 个 块 。 例 如 ， 块 0 是 由 地 址 0 和 1 组 成 

的 ， 块 1 是 由 地 址 2 和 3 组 成 的 ， 块 2 是 由 地 址 4 和 5 组 成 的 ， 依 此 类 推 。 

。 因 为 有 8 个 存储 器 块 ， 但 是 只 有 4 个 高 速 缓存 组 ， 多 个 块 映射 到 同一 个 高 速 缓存 组 

( 即 它们 有 相同 的 组 索引 )。 例 如 ， 块 0 和 4 都 映射 到 组 0， 块 1 和 5 都 映射 到 组 1， 

等 等 。 

，。 上 映射 到 同一 个 高 速 缓 存 组 的 块 由 标记 位 唯一 地 标识 。 例 如 ， 块 0 的 标记 位 为 0， 而 块 4 的 

标记 位 为 1， 块 1 的 标记 位 为 0， 而 块 $ 的 标记 位 为 1， 以 此 类 推 。 

让 我 们 来 模拟 一 下 当 CPU 执行 一 系列 读 的 时 候 ， 高 速 缓存 的 执行 情况 。 记 住 对 于 这 个 示 
例 ， 我 们 假设 CPU 读 1 字 节 的 字 。 虽 然 这 种 手工 的 模拟 很 乏味 ， 你 可 能 想 要 跳 过 它 ， 但 是 
根据 我 们 的 经 验 ， 在 学 生 们 做 过 几 个 这 样 的 练习 之 前 ， 他 们 是 不 能 真正 理解 高 速 缓存 是 如 何 
工作 的 。 
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地 址 位 
地 址 标记 位 ” ”索引 位 位 决 号 
(十 进 制 ) (1=1) (s=2) Ee (十 进 制 ) 


OO 
OO 


oo ~ 个 愉 上 wii 一 


0 
0 
0 
0 
0 
0 
0 
0 
1 
1 
1 
1 
1 
1 
1 
1 


人 OPPOP2OPOPPROPPPOP~“OP~O 
了 OO 大 OW 一- 一 ~ 





图 6-32 示例 直接 映射 高 速 缓存 的 4 位 地 址 空间 
初始 时 ， 高 速 缓存 是 空 的 〈 即 每 个 有 效 位 都 是 0) : 


组 效 位 标记 位 块 [0] 块 [1] 


0 
0 
0 
0 


表 中 的 每 一 行 都 代表 一 个 高 速 缓存 行 。 第 一 列表 明 该 行 所 属 的 组 ， 但 是 请 记 住 提供 这 个 位 只 是 为 
了 方便 ， 实 际 上 它 并 不 真是 高 速 缓存 的 一 部 分 。 后 面 四 列 代表 每 个 高 速 缓存 行 的 实际 的 位 。 现 
在 ， 让 我 们 来 看 看 当 CPU 执行 一 系列 读 时 ， 都 发 生 了 什么 : 

1) 读 地 址 0 的 字 。 因 为 组 0 的 有 效 位 是 0， 是 缓存 不 命中 。 高 速 缓存 从 存储 器 〈 或 低 一 层 
的 高 速 缓存 ) 取出 块 0， 并 把 这 个 块 存储 在 组 0 中 。 然 后 ， 高 速 缓存 返回 新 取出 的 高 速 缓存 行 的 
块 [0] 的 m[0] 存储 器 位 置 0 的 内 容 )。 


组 有 效 位 。 ”标记 位 块 [0] 块 [1] 


0 1 mL[]] 
1 0 
2 0 
3 0 


2) 读 地 址 1 的 字 。 这 次 会 是 个 高 速 缓存 命中 。 高 速 缓存 立即 从 高 速 缓存 行 的 块 [1] 中 返回 
m[1]。 高 速 缓存 的 状态 没有 变化 。 

3) 读 地 址 13 的 字 。 由 于 组 2 中 的 高 速 稻 存 行 不 是 有 效 的 ， 所 以 有 缓存 不 命中 。 高 速 组 存 
把 块 6 加 载 到 组 2 中 ， 然 后 从 新 的 高 速 缓存 行 的 块 [1] 中 返回 m[13]。 


iD 一 全 
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有 效 位 。 ”标记 位 块 [0] 块 [1] 
m[0] m[1] 


m[12] | m[13] 





4) 读 地 址 8 的 字 。 这 会 发 生 缓存 不 命中 。 组 0 中 的 高 速 缓存 行 确实 是 有 效 的 ， 但 是 标记 不 
匹配 。 高 速 缓存 将 块 4 加 载 到 组 0 中 ( 闪 换 读 地 址 0 时 读 和 人 的 那 一 行 )， 然 后 从 新 的 高 速 缓存 行 
的 块 [0] 中 返回 m[8]。 


组 有 效 位 。 ”标记 位 块 [0] 块 [1] 


1 ml[8] m[9] 
0 
1 m[12] m[13] 
0 


5) 读 地 址 0 的 字 。 又 会 发 生 缓 存 不 命中 ， 因 为 在 前 面 引 用 地 址 8 时 ， 我 们 刚好 替换 了 块 0。 
这 就 是 冲突 不 命中 的 一 个 例子 ， 也 就 是 我 们 有 足够 的 高 速 缓存 空间 ， 但 是 交替 地 引用 映射 到 同一 
个 组 的 块 。 





组 有 效 位 ”标记 位 。 块 [0]  ” 块 [1] 
m[0] ml[1] 


m[12] m[13] 





6. 直接 映射 高 速 缓存 中 的 冲突 不 命中 

冲突 不 命中 在 真实 的 程序 中 很 常见 ， 会 导致 令 人 困惑 的 性 能 问题 。 当 程 序 访 问 大 小 为 2 的 
守 的 数组 时 ， 直接 映射 高 速 缓存 中 通常 会 发 生 冲 突 不 命中 。 例 如 ， 考 虑 一 个 计算 两 个 向 量 点 积 
的 函数 : 


float dotprod(float x[8],， float y[8] ) 
{ 


1 

2 

3 float sum = 0.0; 

4 int i; 

5 

6 for (i = 0; i < 8; i++) 
7 sum += x[i] * yl[il; 
8 return Sunm ; 

9 


对 于 x 和 yy 来 说 ， 这 个 函数 有 良好 的 空间 局 部 性 ， 因 此 我 们 期 望 它 的 命中 率 会 比较 高 。 不 
幸 的 是 ， 并 不 总 是 如 此 。 z 

假设 浮 点 数 是 4 个 字 节 ，x 被 加 载 到 从 地 址 0 开始 的 32 字 节 连续 存储 器 中 ， 而 y 紧 跟 在 x 之 
后 ， 从 地 址 32 开始 。 为 了 简便 ， 假 设 一 个 块 是 16 个 字 节 (足够 容纳 4 个 浮 点 数 )， 高 速 缓存 由 
两 个 组 组 成 ， 高 速 缓存 的 整个 大 小 为 32 字 节 。 我 们 会 假设 变量 sum 实际 上 存放 在 一 个 CPU 寄存 
器 中 ， 因 此 不 需要 存储 器 引用 。 根 据 这 些 假设 每 个 x[i] 和 y[i] 会 映射 到 相同 的 高 速 缓存 组 : 

在 运行 时 ， 循 环 的 第 一 次 迭代 引用 x [0] ， 缓 存 不 命中 会 导致 包含 x[0] ~ x[3] 的 块 被 加 
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载 到 组 0。 接 下 来 是 对 y[0] 的 引用 ， 又 一 次 缓存 不 命中 ， 导 致 包含 y[0] 一 Y[3] 的 块 被 拷贝 
到 组 0， 履 次 前 一 次 引用 拷贝 进来 的 x 的 值 。 在 下 一 次 迭代 中 ， 对 x[1] 的 引用 不 命中 ， 导 致 
x[0] 一 x[3] 的 块 被 加 载 回 组 90， 覆盖 掉 y[0] 一 Y[3] 的 块 。 因 而 现在 我 们 就 有 了 一 个 冲突 
不 命中 ， 而 且 实际 上 后 面 每 次 对 x 和 y 的 引用 都 会 导致 冲突 不 命中 ， 因 为 我 们 在 x 和 y 的 块 之 
间 持 动 〈thrash)。 术 语 “ 拌 动 ”描述 的 是 这 样 一 种 情况 ， 即 高 速 缓 存 反 复 地 加 载 和 驱逐 相同 的 高 
速 缓存 块 的 组 。 
简要 来 说 就 是 ， 即 使 程序 有 良好 的 空间 局 部 性 ， 而 且 我 们 的 高 速 缓 存 中 也 有 足够 的 空间 来 存 
放 x[i] 和 y[i] 的 块 ， 每 次 引用 还 是 会 导致 冲突 不 命中 ， 这 是 因为 这 些 块 被 映射 到 了 同一 个 高 
速 缓存 组 。 这 种 拌 动 导致 速度 下 降 2 或 3 倍 并 不 稀奇 。 另外 ， 还 要 注意 虽然 我 们 的 示例 极其 简 
单 ， 但 是 对 于 更 大 、 更 现实 的 直接 映射 高 速 缓存 来 说 ， 这 个 问题 也 是 很 真实 的 。 

任远 的 是 ， 一 且 程 序 员 意识 到 了 正在 发 生 什么 ， 就 很 容易 修正 抖动 问题 。 一 个 很 简单 的 方法 
是 在 每 个 数组 的 结尾 放 8 字 节 的 填充 。 例 如 ， 不 是 将 x 定义 为 float x[8]， 而 是 定义 成 float 
x[12] 。 假 设 在 存储 器 中 y 紧 跟 在 x 后 面 ， 我 们 有 下 面 这 样 的 从 数组 元 素 到 组 的 映射 : 

在 x 结尾 加 了 填充 ，x[i] 和 y[i] 现在 就 映射 到 了 不 同 的 组 ， 消 除了 拌 动 冲 突 不 命中 。 
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练习 题 6.11 在 前 面 dotprod 的 例子 中 ， 在 我 们 对 数组 x 做 了 填充 之 后 ， 所 有 对 x 和 y 的 引用 的 合 
中 率 是 多 少 ? 

坟 红 练习 题 6.12 ”一 般 而 言 ， 如 果 一 个 地 址 的 高 s 位 被 用 做 组 索引 ， 那 么 存储 器 块 连续 的 片 (chunk) 会 
被 映射 到 同一 个 高 速 缓存 组 。 JU 
A. 每 个 这 样 的 连续 的 数组 片 中 有 多 少 个 块 ? : 
B. 考虑 下 面 的 代码 ， 它 运行 在 一 个 高 速 缓存 形式 为 《S，E，B，m) = (512，1，32，32) 的 系统 上 ; 








int array [4096]; 


for (i = 0; i < 4096; i++) 
sum += array[i]; 


”在 任意 时 刻 ， 存 储 在 高 速 缓存 中 的 数组 块 的 最 大 数量 为 多 少 ? 
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为 什么 用 中 间 的 位 来 做 索引 ? 

你 也 许 会 奇怪 ， 为 什么 高 速 丝 存 用 中 间 的 位 来 作为 组 索引 ， 而 不 是 用 高 位 。 为 什么 用 中 间 的 
位 更 好 ， 是 有 很 好 的 原因 的 。 图 6-33 说 明了 原因 。 如 果 高 位 用 做 索引 ， 那 么 一 些 连续 的 存储 器 
块 就 会 映射 到 相同 的 高 速 缓存 块 。 例 如 ， 在 图 中 ， 头 四 个 块 映射 到 第 一 个 高 速 缓存 组 ， 第 二 个 四 
个 块 映射 到 第 二 个 组 ， 依 此 类 推 。 如 果 一 个 程序 有 良好 的 空间 局 部 性 ， 顺 序 扫描 一 个 数组 的 元 
素 ， 那 么 在 任何 时 刻 ， 高 速 缓存 部 只 保存 着 一 个 块 大 小 的 数组 内 容 。 这 样 对 高 速 缓存 的 使 用 效率 
很 低 。 相 比较 而 言 ， 以 中 间 位 作为 索引 ， 相 邻 的 块 总 是 映射 到 不 同 的 高 速 缓存 行 。 在 这 种 情况 

下 ， 高 速 缓存 能 够 存放 人 整个 大 小 为 C 的 数组 片 ， 这 里 C 是 高 速 缓存 的 大 小 。 


高 位 索引 中 间 位 索引 


4 组 高 速 缓存 
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图 6-33 ”为 什么 用 中 间 位 来 作为 高 速 缓存 的 索引 


6.4.3 ”组 相 联 高 速 缓存 | 

直接 映射 高 速 缓存 中 冲突 不 命中 造成 的 问题 是 源 于 每 个 组 只 有 一 行 〈 或 者 ， 按 照 我 们 的 术 
语 来 描述 就 是 1) 这 个 限制 。 组 相 联 高 速 缓存 (set associative cache) 放松 了 这 条 限制 ， 所 以 
每 个 组 都 保存 有 多 于 一 个 的 高 速 缓存 行 。 一 个 1<E<C/8B 的 高 速 缓存 通常 称 为 E 路 组 相 联 高 速 组 
存 。 在 下 一 节 中 ， 我 们 会 讨论 无 C/B 这 种 特殊 情况 。 图 6-34 展示 了 一 个 2 路 组 相 联 高 速 缓存 的 
结构 。 

1. 组 相 联 高 速 缓存 中 的 组 选择 

它 的 组 选择 与 直接 映射 高 速 缓存 的 组 选择 一 样 ， 组 索引 位 标识 组 。 图 6-35 总 结 了 这 个 原理 。 

2. 组 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 

组 相 联 高 速 缓存 中 的 行 匹 配 比 直接 映射 高 速 缓存 中 的 更 复杂 ， 因 为 它 必 须 检 查 多 个 行 的 标记 
位 和 有 效 位 ， 以 确定 所 请 求 的 字 是 否 在 集合 中 。 一 个 传统 的 存储 器 是 一 个 值 的 数组 ， 以 地 址 作为 
组 ， 以 key 为 输入 ， 返 回 与 输入 的 key 相 匹配 的 〈key，value) 对 中 的 value 值 。 因 此 ， 我 们 可 
以 把 组 相 联 高 速 缓存 中 的 每 个 组 都 看 成 一 个 小 的 相 联 存储 器 ，key 是 标记 和 有 效 位 ， 而 value 就 
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是 块 的 内 容 。 

图 6-36 展示 了 相 联 高 速 缓存 中 行 匹配 的 基本 思想 。 这 里 的 一 个 重要 思想 就 是 组 中 的 任何 一 
行 都 可 以 包含 任何 映射 到 这 个 组 的 存储 器 块 。 所 以 高 速 缓存 必须 搜索 组 中 的 每 一 行 ， 寻 找 一 个 有 
效 的 行 ， 其 标记 与 地 址 中 的 标记 相 匹配 。 和 块 偏 
移 从 这 个 块 中 选择 一 个 字 ， 和 前 面 一 样 。 


eo | 
_ 高 速 缓存 块 





i 






组 S-1: 





图 6-34 组 相 联 高 速 缓存 (1<E<C/B)。 在 一 个 组 相 联 高 速 缓存 中 ， 每 个 组 包含 多 于 一 个 行 。 
这 里 的 这 个 特例 是 一 个 2 路 组 相 联 高 速 缓存 








组 0: 
选择 的 组 
组 1: 
”高速 组 存 块 
上 位 sf b 位 组 S-1 





Te 


标记 组 索引 块 偏 移 
图 6-35 组 相 联 高 速 缓存 中 的 组 选择 


3. 组 相 联 高 速 缓存 中 不 命中 时 的 行 蔡 换 

如 果 CPU 请 求 的 字 不 在 组 的 任何 一 行 中 ， 那么 就 是 缓存 不 命中 ， 高 速 缓存 必须 从 存储 器 中 
取出 包含 这 个 字 的 块 。 不 过 ， 一旦 高 速 缓存 取出 了 这 个 块 ， 该 蔡 换 哪个 行 呢 ?当然 ， 如 果 有 一 个 
空 行 ， 那 它 就 是 个 很 好 的 候选 。 但 是 如 果 该 组 中 没有 空 行 ， 那 么 我 们 必须 从 中 选择 一 个 非 空 的 
行 ， 希 望 CPU 不 会 很 快 引 用 这 个 被 蔡 换 的 行 。 

程序 员 很 难 在 代码 中 利用 高 速 缓存 替换 策略 ， 所 以 在 此 我 们 不 会 过 多 地 讲述 其 细节 。 最 简单 
的 替换 策略 是 随机 选择 要 蔡 换 的 行 。 其 他 更 复杂 的 策略 利用 了 局 部 性 原理 ， 以 使 在 比较 近 的 将 来 
引用 被 蔡 换 的 行 的 概率 最 小 。 例 如 ， 最 不 常 使 用 (Least-Frequently-Used，LFU) 策略 会 替换 在 
过 去 某 个 时 间 窗 口内 引用 次 数 最 少 的 那 一 行 。 最 近 最 少 使 用 (Least-Recently-Used，LRU) 策略 
会 替换 最 后 一 次 访问 时 间 最 久远 的 那 一 行 。 所 有 这 些 策略 都 需要 额外 的 时 间 和 硬件 。 但 是 ， 越 往 
存储 器 层次 结构 下 面 走 ， 远 离 CPU， 一 次 不 命中 的 开销 就 会 更 加 昂贵 ， 用 更 好 的 替换 策略 使 得 
不 命中 最 少 也 变 得 更 加 值得 了 。 
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=1? (1) 有 效 位 必须 是 设置 了 的 。 


选择 的 组 (i) : 





(2 ) 高 速 缓存 行 中 某 一 行 (3) 如 果 (1) 和 (2) 为 真 ， 


的 标记 位 必须 匹配 地 那么 高 速 缓存 命中 ， 然 后 
址 中 的 标记 位 。 块 偏 移 选 择 起 始 字 节 。 
人 位 8 位 2 位 
m-l 0 


标记 组 索引  ” 块 偏 移 
图 6-36 ”组 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 


6.4.4 ”全 相 联 高 速 缓存 
一 个 全 相 联 高 速 缓存 〈fully associative cache) 是 由 一 个 包含 所 有 高 速 缓存 行 的 组 〈 即 E=C/ B) 
组 成 的 。 图 6-37 给 出 了 基本 结构 。 


El 
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| 

图 6-37 全 相 联 高 速 缓存 :(E=C/B)。 在 一 个 全 相 联 高 速 缓存 中 ， 一 个 组 包含 所 有 的 行 


1. 全 相 联 高 速 缓存 中 的 组 选择 
全 相 联 高 速 缓存 中 的 组 选择 非常 简单 ， 因 为 只 有 一 个 组 ， 图 6-38 做 了 个 小 结 。 注 意 地 址 中 
没有 组 索引 位 ， 地 址 只 被 划分 成 了 一 个 标记 和 一 个 块 偏 移 。 


| 
下 到 攻 证 二 和 和 -高速 组 存 所 


组 0: 





整个 高 速 缓存 只 有 一 个 组 ， 





所 以 默认 总 是 选择 组 0。 组 0, | 
一 -一 一 一 [rea CE i 
11 一 1 0 
标记 块 偏 移 


图 6-38 全 相 联 高 速 缓 存 中 的 组 选择 。 注 意 没 有 组 索引 位 


2. 全 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 
全 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 与 组 相 联 高 速 缓存 中 的 是 一 样 的 ， 如 图 6-39 所 示 。 它 
们 之 间 的 区 别 主 要 是 个 规模 大 小 的 问题 。 因 为 高 速 缓存 电路 必须 并 行 地 搜索 许多 相 匹 配 的 标记 ， 
构造 一 个 又 大 又 快 的 相 联 高 速 缓存 很 困难 ， 而 且 很 昂贵 。 因 此 ， 全 相 联 高 速 缓存 只 适合 做 小 的 高 
速 缓存 ， 例 如 虚拟 存储 器 系统 中 的 翻译 备用 缓冲 器 (TLB)， 它 缓存 页 表 项 〈 见 9.6.2 节 )。 
给 说 练习 题 6.13 下 面 的 问题 能 帮助 你 加 强 理解 高 速 缓存 是 如 何 工作 的 。 有 如 下 假设 : 
“存储器 是 字 节 寻 址 的 。 
。 存储 器 访问 的 是 1 字 节 的 字 (不 是 4 字 节 的 字 )。 
。 地 址 的 宽度 为 13 位 。 
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。 高 速 缓 存 是 2 路 组 相 联 的 《EE=2)， 块 大 小 为 4 字 节 (B=4)， 有 8 个 组 (S=8)。 
高 速 缓存 的 内 容 如 下 ， 所 有 的 数字 都 是 以 十 六 进 制 来 表示 的 。 


2 路 组 相 联 高 速 组 存 
行 0 行 1 


组 索引 ”标记 位 有 效 位 字 节 0 字 节 1 字 节 2 字 节 3 标记 位 有 效 位 字 节 0 字 节 1 字 节 2 





O22 OOP Pp 
这 OO”~"~OPO 


0 
1 
2 
3 
4 
3 
0 
7 


下 面 的 方 框 展示 的 是 地 址 格式 (每 个 小 方 框 一 个 位 )。 指 出 在 图 中 标 出 ) 用 来 确定 下 列 内 容 的 字段 : 
CO 高速 缓 存 块 偏 移 

CI 高 速 缓存 组 索引 

CT 高 速 缓存 标记 


整个 高 速 缓存 | 三 革 让 





(2 ) 高 速 缓存 行 中 某 一 行 的 =? 速 缓存 命中 ， 然 后 块 偏 移 选 


标记 位 必须 匹配 地 址 中 
的 标记 位 。 择 出 起 始 字 节 。 
上 位 0 位 
0110 | 100 | 
m-—l 0 
标记 块 偏 移 


”图 6-39 全 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 





ES 练习 题 6.14 ”假设 一 个 程序 运行 在 练习 题 6.13 中 的 机 器 上 ， 它 引用 地 址 0x0E34 处 的 1 个 字 节 的 字 。 
指出 访问 的 高 速 缓存 条 目 和 十 六 进 制 表示 的 返回 的 高 速 缓存 字 节 值 。 指 出 是 否 会 发 生 缓存 不 命中 。 如 
果 会 出 现 缓存 不 命中 ， 用 “一 ”来 表示 “返回 的 高 速 缓存 字 节 ”。 
A. 地 址 格式 《每 个 小 方 框 一 个 位 ): 


B. 存储 器 引用 : 


420 冀 一 部 分 寿 序 绍 药 黎 疗 












高 速 级 存 块 偏 移 (CO) | ox 

SA CD | ox 

WE CE 

加 的 让 红字 忆 | 0x 

ES 练习 题 6.15 ”对 于 存储 器 地 址 0x0DD5， 再 做 一 遍 练 习题 6.14。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ): 


MM 
0 
be 
DY wm 
到 、\ 
YY 
wh 
M4 YY 





B. 存储 器 引用 : 









参 
高 速 缓存 块 偏 移 (CO) 


_ 高 速 缓存 标记 (CT) | 0x | 

_ 高速 缓存 命中 ? (是 / 否 ) | | 

ya 练习 题 6.16 ”对 于 存储 器 地 址 0x1FE4， 再 做 一 遍 练习 题 6.14。 
A. 地 址 格式 《每 个 小 方 框 一 个 位 ): 


高 速 缓存 组 索引 〈CI) 





yy 
E 示 








B. 存储 器 引用 : 






商人 区 (CO) | 0x 
高 有 组 过 9 CCD | ox 
_ 高速 缓 存 标记 (CT) | 0x 
_ 高 速 缓存 命 中 ? (是 / 否 ) | 
| 返回 的 高 速 级 存 字 节 | ox | 
本 吕 | 练习 题 6.17 ”对 于 练习 题 6.13 中 的 高 速 缓存 ， 列 出 所 有 的 在 组 3 中 会 命中 的 十 六 进 制 存储 器 地 址 。 
6.4.5 ”有关 写 的 问题 : 

正如 我 们 看 到 的 ， 高 速 缓存 关于 读 的 操作 非常 简单 。 首 先 ， 在 高 速 缓存 中 查找 所 需 字 w 的 
拷贝 。 如 果 命 中 ， 立 即 返 回 字 w 给 CPU。 如 果 不 命中 ， 从 存储 器 层次 结构 中 较 低 层 中 取出 包含 
字 w 的 块 ， 将 这 个 块 存储 到 某 个 高 速 缓存 行 中 〈 可 能 会 驱逐 一 个 有 效 的 行 )， 然 后 返回 字 w。 

写 的 情况 就 要 复杂 一 些 了 。 假 设 我 们 要 写 一 个 已 经 缓存 了 的 字 w 写 命中 〈write hit)。 在 高 速 
缓存 更 新 了 它 的 w 的 拷贝 之 后 ， 怎 么 更 新 w 在 层次 结构 中 紧 接着 低 一 层 中 的 拷贝 呢 ? 最 简单 的 
方法 ， 称 为 直 写 〈write-through)， 就 是 立即 将 w 的 高 速 缓存 块 写 回 到 紧 接 着 的 低 一 层 中 。 虽 然 
简单 ， 但 是 直 写 的 缺点 是 每 次 写 都 会 引起 总 线 流量 。 男 一 种 方法 ， 称 为 写 回 (write-back)， 尽 可 
能 地 推迟 存储 器 更 新 ， 只 有 当 替 换算 法 要 驱逐 更 新 过 的 块 时 ， 才 把 它 写 到 紧 接着 的 低 一 层 中 。 由 
于 局 部 性 ， 写 回 能 显著 地 减少 总 线 流 量 ， 但 是 它 的 缺点 是 增加 了 复杂 性 。 高 速 缓存 必须 为 每 个 高 
速 缓存 行 维护 一 个 额外 的 修改 位 〈dirty bit)， 表 明 这 个 高 速 缓存 块 是 否 被 修改 过 。 

另 一 个 问题 是 如 何 处 理 写 不 命中 。 一 种 方法 称 为 写 分 配 (write-allocate)， 加 载 相应 的 低 一 
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层 中 的 块 到 高 速 缓存 中 ， 然 后 更 新 这 个 高 速 缓存 块 。 写 分 配 试图 利用 写 的 空间 局 部 性 ， 但 是 缺点 
是 每 次 不 命中 都 会 导致 一 个 块 从 低 一 层 传送 到 高 速 缓存 。 另 一 种 方法 ， 称 为 非 写 分 配 《not-wtrite= 
allocate)， 避 开 高 速 缓存 ， 直 接 把 这 个 字 写 到 低 一 层 中 。 直 写 高 速 缓存 通常 是 非 写 分 配 的 。 写 回 
高 速 缓存 通常 是 写 分 配 的 。 

为 写 操作 优化 高 速 缓存 是 一 个 细致 而 困难 的 问题 ， 在 此 我 们 只 是 略 讲 上 皮毛。 细节 随 系统 的 不 
同 而 不 同 ， 而 且 通 常 是 私有 的 ， 文 档 记 录 不 详细 。 对 于 试图 编写 高 速 缓存 比较 友好 的 程序 的 程序 
员 来 说 ， 我 们 建议 在 心里 采用 一 个 使 用 写 回 和 写 分 配 的 高 速 缓存 的 模型 。 这 样 建议 有 几 个 原因 。 

通常 ， 由 于 较 长 的 传送 时 间 ， 存 储 器 层次 结构 中 较 低层 的 缓存 更 可 能 使 用 写 回 ， 而 不 是 直 
写 。 例 如 ， 虚 拟 存储 器 系统 〈 用 主 存 作 为 存储 在 磁盘 上 的 块 的 缓存 ) 只 使 用 写 回 。 但 是 由 于 逻辑 
电路 密度 的 提高 ， 写 回 的 高 复杂 性 也 越 来 越 不 成 为 阻碍 了 ， 我 们 在 现代 系统 的 所 有 层次 上 都 能 看 
到 写 回 缓存 。 所 以 这 种 假设 符合 当前 的 趋势 。 假 设 使 用 写 回 写 分 配方 法 的 另 一 个 原因 是 ， 它 与 处 
理 读 的 方式 相对 称 ， 因 为 写 回 写 分 配 试图 利用 局 部 性 。 因 此 ， 我 们 可 以 在 高 层次 上 开发 我 们 的 程 
序 ， 展 示 良 好 的 空间 和 时 间 局 部 性 ， 而 不 是 试图 为 某 一 个 存储 器 系统 进行 优化 。 
6.4.6 ”一 个 真实 的 高 速 缓存 层次 结构 的 解剖 

到 目前 为 止 ， 我 们 一 直 假 设 高 速 缓存 只 保存 程序 数据 。 不过， 实际 上 ， 高 速 缓存 既 保 存 
数据 ， 也 保存 指令 。 只 保存 指令 的 高 速 缓存 称 为 icache。 只 保存 程序 数据 的 高 速 缓存 称 为 
d-cache。 既 保存 指令 又 包括 数据 的 高 速 缓存 称 为 统一 的 高 速 组 让 (unified cache)。 现 代 处 理 器 包 
括 独 立 的 i-cache 和 d-cache。 这 样 做 有 很 多 原因 。 有 两 个 独立 的 高 速 缓存 ， 处 理 器 能 够 同时 读 一 
个 指令 字 和 一 个 数据 字 。i-cache 通常 是 只 读 的 ， 因 此 比较 简单 。 通 常会 对 不 同 的 访问 模式 来 优 
化 这 两 个 高 速 缓存 ， 它 们 可 以 有 不 同 的 块 大 小 、 相 联 度 和 容量 。 有 不 同 的 高 速 缓存 也 确保 了 数据 
访问 不 会 与 指令 访问 形成 冲突 不 命中 ， 反 过 来 也 是 一 样 ， 代 价 就 是 可 能 会 引起 容量 不 命中 增加 。 

图 6-40 给 出 了 Intel Core i7 处 理 器 的 高 速 缓存 层次 结构 。 每 个 CPU 芯片 有 四 个 核 。 每 个 核 
有 自己 私有 的 Ll i-cache、L1 d-cache 和 L2 统一 的 高 速 缓存 。 所 有 的 核 共享 片上 3 统一 的 高 速 
缓存 。 这 个 层次 结构 的 一 个 有 趣 的 特 全 是 所 有 的 SRAM 高 速 缓存 存储 器 都 在 CPU 心 瞩 上 。 

图 6-41 总 结 了 Core i7 高 速 缓存 的 基本 特性 。 





图 6-40 Intel Core i7 的 高 速 缓存 层次 结构 
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图 6-41 Core i7 高 速 缓存 层次 结构 的 特性 


6.4.7 ”高速 缓存 参数 的 性 能 影响 
有 许多 指标 来 衡量 高 速 缓存 的 性 能 : 
。 不 命中 举 (miss rate)。 在 一 个 程序 执行 或 程序 的 一 部 分 执行 期 间 ， 存 储 器 引用 不 命中 的 比 
率 。 它 是 这 样 计 算 的 : 不 命中 数量 /引用 数量 。 
“ 命中 率 (hit rate)。 命 中 的 存储 器 引用 比率 。 它 等 于 1 不 命中 奉 。 
“命中 时 间 (hit time)。 从 高 速 缓存 传送 一 个 字 到 CPU 所 需 的 时 间 ， 包 括 组 选择 、 行 确认 和 
字 选 择 的 时 间 。 对 于 L1 高 速 缓存 来 说 ， 命 中 时 间 的 数量 级 是 几 个 时 钟 周期 。 
“不 命中 处 罚 (miss penalty)。 由 于 不 命中 所 需要 的 额外 的 时 间 。L1 不 命中 需要 从 L2 得 到 
服务 的 处 罚 ， 典 型 地 是 数 10 个 周期 ;从 L3: 得 到 服务 的 处 罚 ，40 个 周期 ; 从 主 存 得 到 的 服 
务 的 处 罚 ，100 个 周期 。 a 
优化 高 速 缓存 的 成 本 和 性 能 的 折 中 是 一 项 很 精细 的 工作 ， 它 需要 在 现实 的 基准 程序 代码 上 进 
行 大 量 的 模拟 ， 因 此 超出 了 我 们 讨论 的 范围 。 不 过 ， 还 是 可 以 认识 一 些 定 性 的 折 中 。 
1. 高 速 缓存 大 小 的 影响 
一 方面 ， 较 大 的 高 速 缓存 可 能 会 提高 命中 率 。 另 一 方面 ， 使 大 存储 器 运行 得 更 快 总 是 要 难 一 
些 的 。 结 果 ， 较 大 的 高 速 缓存 可 能 会 增加 命中 时 间 。 对 于 芯片 上 的 L1 高 速 缓 存 来 说 这 一 点 尤为 
重要 ， 因 为 它 的 命中 时 间 必 须 短 。 
2. 块 大 小 的 影响 
大 的 块 有 利 有 弊 。 一 方面 ， 较 大 的 块 能 利用 程序 中 可 能 存在 的 空间 局 部 性 ， 帮 助 提高 命中 
率 。 不 过 ， 对 于 给 定 的 高 速 缓存 大 小 ， 块 越 大 就 意味 着 高 速 缓存 行 数 越 少 ， 这 会 损害 时 间 局 部 性 
比 空间 局 部 性 更 好 的 程序 中 的 命中 率 。 较 大 的 块 对 不 命中 处 罚 也 有 负面 影响 ， 因 为 块 越 大 ， 传 送 
时 间 就 越 长 。 现 代 系 统 通常 会 折 中 ， 使 高 速 缓存 块 包含 32 ~ 64 个 字 节 。 
3. 相 联 度 的 影响 
这 里 的 问题 是 参数 EE 的 选择 的 影响 ，E 是 每 个 组 中 高 速 缓 存 行 数 。 较 高 的 相 联 度 〈( 也 就 是 EE 
的 值 较 大 ) 的 优点 是 降低 了 高 速 缓存 由 于 冲突 不 命中 出 现 抖 动 的 可 能 性 。 不 过 ， 较 高 的 相 联 度 会 
造成 较 高 的 成 本 。 较 高 的 相 联 度 实现 起 来 很 昂贵 ， 而 且 很 难 使 之 速度 变 快 。 每 一 行 需要 更 多 的 标 
记 位 ， 每 一 行 需 要 额外 的 LRU 状态 位 和 额外 的 控制 逻辑 。 较 高 的 相 联 度 会 增加 命中 时 间 ， 因 为 
复杂 性 增加 了 ， 另 外 ， 还 会 增加 不 命中 处 罚 ， 因 为 选择 牺牲 行 〈victim line) 的 复杂 性 也 增加 了 。 
相 联 度 的 选择 最 终 变 成 了 命中 时 间 和 不 命中 处 罚 之 间 的 折 中 。 传 统 上 ， 努 力争 取 时 钟 频率 的 
高 性 能 系统 会 为 Ll 高 速 缓存 选择 较 低 的 相 联 度 〈 这 里 的 不 命中 处 罚 只 是 几 个 周期 )， 而 在 不 命 
中 处 罚 比 较 高 的 较 低层 上 使 用 比较 小 的 相 联 度 。 例 如 ，Intel Core i7 系统 中 ，L1 和 1L2 高 速 缓存 
是 8 路 组 相 联 的 ， 而 L3 高 速 缓存 是 16 路 组 相 联 的 。 
4. 写 策略 的 影响 
直 写 高 速 缓存 比较 容易 实现 ， 而 且 能 使 用 独立 于 高 速 缓存 的 写 绥 冲 区 〈write buffer)， 用 来 
更 新 存储 器 。 此 外 ， 读 不 命中 开销 没 这 么 大 ， 因 为 它们 不 会 触发 存储 器 写 。 另 一 方面 ， 写 回 高 速 
缓存 引起 的 传送 比较 少 ， 它 允许 更 多 的 到 存储 器 的 带宽 用 于 执行 DMA 的 IO 设备 。 此 外 ， 越 往 
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层次 结构 下 面 走 ， 传 送 时 间 增 加 ， 减 少 传送 的 数量 就 变 得 更 加 重要 。 一 般 而 言 ， 高 速 缓存 越 往 下 
层 ， 越 可 能 使 用 写 回 而 不 是 直 写 。 


高 速 缓存 行 、 组 和 块 有 什么 区 别 ? z 
很 容易 混 消 高 速 缓存 行 、 组 和 块 之 间 的 区 别 。 让 我 们 来 回顾 一 下 这 些 概 念 ， 确 保 概念 
决 是 一 个 固定 大 小 的 信息 包 ， 在 高 速 狠 存 和 主 存 (或 下 一 层 高 速 续 存 ) 之 间 来 回 传送 。 

。 行 是 高 速 缓存 中 存储 块 以 及 其 他 信息 〈 例 如 有 效 位 和 标记 位 ) 的 容器 。 

* 组 是 一 个 或 多 个 行 的 集合 。 直 接 映射 高 速 缓存 中 的 组 只 由 一 行 组 成 。 组 相 联 和 全 相 联 高 速 

缓存 中 的 组 是 由 多 个 行 组 成 的 。 

在 直接 映射 高 速 缓存 中 ， 组 和 行 确实 是 等 价 的 。 不 过 ， 在 相 联 高 速 组 看 中 ， 组 和 行 是 很 不 一 
样 的 ， 这 两 个 词 不 能 互 换 使 用 。 

因为 一 行 总 是 存储 一 个 块 ， 术 语 “ 行 ”和 “ 块 ” 通常 互 换 使 用 。 例 如 ， 系 统 专 家 总 是 说 高 速 
缓存 的 “ 行 大 小 ” 实际 上 他 们 指 的 是 块 大 小 。 这 样 的 用 法 十 分 普遍 ， 只 要 你 理解 块 和 行 之 间 的 
区 别 ， 它 不 会 造成 任何 误会 。 


6.5 ”编写 高 速 缓存 友好 的 代码 


在 6.2 节 中 ， 我 们 介绍 了 局 部 性 的 思想 ， 而 且 定 性 地 谈 了 一 下 什么 会 具有 良好 的 局 部 性 。 既 
然 我 们 已 经 明白 了 高 速 缓存 存储 器 是 如 何 工作 的 了 ， 我 们 就 能 更 加 精确 一 些 了 。 局 部 性 比较 好 的 
程序 更 容易 有 较 低 的 不 命中 率 ， 而 不 命中 率 较 低 的 程序 往往 比 不 命中 率 较 高 的 程序 运行 得 更 快 。 
因此 ， 从 具有 良好 局 部 性 的 意义 上 来 说 ， 好 的 程序 员 总 是 应 该 试 着 去 编写 高 速 缓存 友好 〈cache 
friendly) 的 代码 。 下 面 就 是 我 们 用 来 确保 代码 高 速 缓存 友好 的 基本 方法 : 

1) 让 最 常见 的 情况 运行 得 快 。 程 序 通常 把 大 部 分 时 间 都 花 在 少量 的 核心 函数 上 ， 而 这 些 函 
数 通常 把 大 部 分 时 间 都 花 在 了 少量 循环 上 。 所 以 要 把 注意 力 集 中 在 核心 函数 中 的 循环 上 ， 而 忽略 
其 他 部 分 。 

2) 在 每 个 循环 内 部 缓存 不 命中 数量 最 小 。 在 其 他 条 件 〈 例 如 加 载 和 存储 的 总 次 数 ) 相同 的 
情况 下 ， 不 命中 率 较 低 的 循环 运行 得 更 快 。 

为 了 看 看 实际 上 这 是 怎么 工作 的 ， 考 虑 6.2 节 中 的 函数 sumvec : 
int sumvec(int vI[N]) 


{ 


int i, sum = 0; 


for (i = 0; i < N; i++) 

sum += v[i]; 

return SUm， 
} 
这 个 项 数 高 速 缓存 友好 吗 ? 首先 ， 注 意 对 于 局 部 变量 i 和 sum， 循 环 体 有 良好 的 时 间 局 部 性 。 
实际 上 ， 因 为 它们 都 是 局 部 变量 ， 任 何 合理 的 优化 编译 器 都 会 把 它们 缓存 在 寄存 器 文件 中 ， 也 就 
是 存储 器 层次 结构 的 最 高 层 中 。 现 在 考虑 一 下 对 同 量 v 的 步 长 为 1 的 引用 。 一 般 而 言 ， 如 果 一 
个 高 速 缓存 的 块 大 小 为 正字 节 ， 那 么 一 个 步 长 为 上 的 引用 模式 〈 这 里 大 是 以 字 为 单位 的 ) 平均 每 
次 循环 迭代 会 有 min(1，(wordsizeXA/B) 次 缓存 不 命中 。 当 大 1 时 ， 它 取 最 小 值 ， 所 以 对 v 的 步 
长 为 1 的 引用 确实 是 高 速 缓存 友好 的 。 例 如 ， 假 设 v 是 块 对 齐 的 ， 字 为 4 个 字 节 ， 高 速 缓存 块 
为 4 个 字 ， 而 高 速 缓存 初始 为 空 ( 冷 高 速 缓存 )。 然 后 ， 无 论 是 什么 样 的 高 速 缓存 结构 ， 对 v 的 
引用 都 会 得 到 下 面 的 命中 和 不 命中 模式 : 


oo J tu 一 
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v[i] i=0 Tl T=2 TE3 14 T= 1=0 1=7 
访问 顺序 ， 命 中 9 或 不 全 中 [m1 [ml | 2 四 | 3 四 | 4 四 | Sm] | 5 四 | 7 四 | 8 四 


在 这 个 例子 中 ， 对 v[0] 的 引用 会 不 命中 ， 而 相应 的 包含 v[0] ~ v13] 的 块 会 被 从 存储 器 
加 载 到 高 速 缓存 中 。 因 此 ， 接 下 来 三 个 引用 都 会 命中 。 对 [4] 的 引用 会 导致 不 命中 ， 而 一 个 新 
的 块 被 加 载 到 高 速 缓存 中 ， 接 下 来 的 三 个 引用 都 命中 ， 依 此 类 推 。 总 的 来 说 ， 四 个 引用 中 ， 三 
会 命中 ， 在 这 种 冷 缓 存 的 情况 下 ， 这 是 我 们 所 能 做 到 的 最 好 的 情况 了 。 

总 之 ， 简 单 的 sumvec 示例 说 明了 两 个 关于 编写 高 速 缓存 友好 的 代码 的 重要 问题 : 

. 对 局 部 变量 的 反复 引用 是 好 的 ， 因 为 编译 器 能 够 将 它们 缓存 在 寄存 器 文件 中 (时 间 局 部 

性 )。 

* 步 长 为 1 的 引用 模式 是 好 的 ， 因为 存储 器 层次 结构 中 所 有 层次 上 的 缓存 都 是 将 数据 存储 为 

连续 的 块 〈 空 间 局 部 性 )。 

在 对 多 维 数组 进行 操作 的 程序 中 ， 空 间 局 部 性 尤其 重要 。 例 如 ， 考虑 62 市 中 的 sumarrayrows 
函数 ， 它 按照 行 优先 顺序 对 一 个 二 维 数组 的 元 素 求 和 : 





int sumarrayrows(int a[M] [Nj) 
Tf 


int i, j, sum = 0,; 


for (j = 0; j < N; j++) 
‘sum += af[i] [jj]; 


1 

2 

3 

4 

5 for (i = 0; i < M; i++) 
6 

7 

8 return sum; 

9 


} 


由 于 C 语言 以 行 优先 顺序 存储 数组 ， 所 以 这 个 函数 中 的 内 循环 有 与 sumvec 一 禅 好 的 步 长 为 1 
的 访问 模式 。 例 如 ， 假 设 我 们 对 这 个 高 速 缓存 做 与 对 sumvec 一 样 的 假设 。 那 么 对 数组 a 的 引 
用 会 得 到 下 面 的 命中 和 不 命中 模式 : 


a[i] [j] 了 二 0 j=1 JJ=2 ”=3 j=4 ys deb, .el 


WO O 


i 
i 
1 
1 








看 看 会 发 生 什么 : 


int sumarraycols(int al[M] LN] ) 
{ 


int i, j, sum = 0; 


for (i = 0; i < M; i++) 
sum += a[i] [j]; 
8 return Sum ; 
} 
在 这 种 情况 下 ， 我 们 是 一 列 一 列 而 不 是 一 行 一 行 地 扫描 数组 的 。 如 果 我 们 够 幸运 ， 整 个 数组 都 在 
高 速 缓存 中 ， 那 么 我 们 也 会 有 相同 的 不 命中 率 4。 不过， 如果 数 组 比 高 速 缓存 要 大 (更 可 能 出 
现 这 种 情况 )， 那 么 每 次 对 a [i] [j] 的 访问 都 会 不 命中 ! : 


1 
2 
3 
4 
5 for (j = 0; j < N; j++) 
7 
8 
9 
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a[li][i] j=0 j ey. jd J je Vb 7 


1 
1 
1 
1 


WO 一 OO 





较 高 的 不 命中 率 对 运行 时 间 可 以 有 显著 的 影响 。 例 如 ， 在 桌面 机 器 上 ，sumarzayrow 运行 
速度 是 sumarraycols 的 两 倍 。 总 之 ， 程 序 员 应 该 注意 他 们 程序 中 的 局 部 性 ， 试 着 编写 利用 局 
部 性 的 程序 。 z 
四 台 练习 题 6.18 在 信号 处 理 和 科学 计算 的 应 用 中 ， 转 置 矩 阵 的 行 和 列 是 一 个 很 重要 的 问题 。 从 局 部 性 

的 角度 来 看 ， 它 也 很 有 趣 ， 因 为 它 的 引用 模式 既是 以 行为 主 (row-wise) 的 ， 也 是 以 列 为 主 column- 

wise) 的 。 例 如 ， 考 虑 下 面 的 转 置 函 数 : 


typedef :int array [2] [2] ; 





1 

2 

3 void transposel(array dst, array src) 
4 

5 


int i, j; 
6 
7 for (i = 0; i < 2; i++) { 
8 for (j = 0; j < 2; j++) { 
9 dst[j] [i] = src[i] [jj]; 
10 } 
11 } 


12 } 
假设 在 一 台 具 有 如 下 属性 的 机 器 上 运行 这 段 代 码 : 


。sizeof (int) == 

。src 数组 从 地 址 0 开始 ，dst 数组 从 地 址 16 开始 (十进制)。 

。 只 有 一 个 LI 数据 高 速 缓存 ， 它 是 直接 映射 的 、 直 写 、 写 分 配 ， 块 大 小 为 8 个 字 节 。 

。 这 个 高 速 缓存 总 的 大 小 为 16 个 数据 字 节 ， 一 开始 是 空 的 。 

。 对 src 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

A. 对 每 个 zxow 和 co1l， 指 明 对 src[row] [col] 和 dst[row] [col] 的 访问 是 命中 (h) 还 是 不 命 
中 (m)。 例 如 ， 读 src[0] [0] 会 不 命中 ， 写 dst [10] [0] 也 不 命中 。 


dst 数组 src 数组 
_0 行 | m | | 0 行 | m | 
M1 行 | | | ! 行 | | | 


B. 对 于 一 个 大 小 为 32 数据 字 节 的 高 速 缓 存 重复 这 个 练习 。 
攻 汪 练习 题 6.19 ”最近 一 个 很 成 功 的 游戏 SimAquarium 的 核心 就 是 一 个 紧密 循环 〈tight loop)， 它 计算 256 
个 海藻 (algae) 的 平均 位 置 。 在 一 台 具 有 块 大 小 为 16 学 节 (B=16)、 整 个 大 小 为 1024 字 节 的 直接 映 
射 数据 缓存 的 机 器 上 测量 它 的 高 速 缓存 性 能 。 定 义 如 下 : 


1 struct algae_position { 
2 int Xx; 

3 int y; 
4 

5 





上 


6 struct algae_position grid[16] {16]; 
7 int total_x = 0, total_y = 0; 
8 int 1 J] 
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。sizeof (int) == 

"grid 从 存储 器 地 址 0 开始 。 

。 这 个 高 速 缓存 开始 时 是 空 的 。 

。 唯一 的 存储 器 访问 是 对 数组 grid 的 元 素 的 访问 。 变 量 i、j、total_x 和 total_y 存放 在 寄存 器 中 。 
确定 下 面 代码 的 高 速 缓存 性 能 : 


for (i = 0; i < 16; i++) { 


1 

2 for (j = 0; j < 16; j++) { 

3 total_x += grid[i] [j] .x; 
4 } 

5 } 

这 for (i = 0; i < 16; i++) { 

8 for (j = 0; j < 16; j++) { 

9 total_y += grid[i] [j] .y; 
10 } 
11 } 


A. 读 总 数 是 多 少 ? 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
本 练习 题 6.20 ”给 定 练习 题 6.19 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 : 


1 for (i = 0; i < 16; i++){ 





2 for (j = 0; j < 16; j++) { 
total_x += grid[j] [il].x; 
4 total_y += grid[j] [i].y; 
5 } 

6 } 


A. 读 总 数 是 多 少 ? 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 

C. 不 命中 率 是 多 少 ? 

D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 

给 定 练习 题 6.19 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 : 


for (i = 0; i < 16; i++){ 

for (j = 0; j < 16; j++) { 
total_x += grid[i] [jj] .x; 
total_y += grid[i] [j].y; 





} 


, 
1 
2 
3 
| 
5 
好 


} 

A. 读 总 数 是 多 少 ? 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 

C. 不 命中 率 是 多 少 ? 

D. 如 果 高 速 缓存 有 两 们 大， 那么 不 命中 率 会 是 多 少 呢 ? 


6.6 综合 : 高 速 缓存 对 程序 性 能 的 影响 


本 市 通过 研究 高 速 缓存 对 运行 在 实际 机 器 上 的 程序 的 性 能 有 影响， 综合 了 我 们 对 存储 器 层次 结 
构 的 讨论 。 
6.6.1 存储 器 山 

一 个 程序 从 存储 系统 中 读数 据 的 速率 称 为 读 吞 吐 量 (read throughput)， 或 者 有 时 称 为 读 带 宽 
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(read bandwidth)。 如 果 一 个 程序 在 s 秒 的 时 间 段 内 读 n 个 字 节 ， 那 么 这 段 时 间 内 的 读 否 吐 量 就 
等 于 wk， 典型 地 是 以 兆 字 节 每 秒 (MB/s) 为 单位 的 。 
如 果 我 们 要 编写 一 个 程序 ， 它 从 一 个 紧密 程序 循环 〈tight program loop) 中 发 出 一 系列 读 请 
求 ， 那 么 测量 出 的 读 吞 吐 量 能 让 我 们 看 到 对 于 这 个 读 序列 来 说 的 存储 系统 的 性 能 。 图 6-42 给 出 
了 一 对 测量 某 个 读 序列 读 吞 吐 量 的 函数 。 


code/mem/mountain/mountain.c 


1 double data[MAXELEMS] ; /* The global array we'll be traversing <*/ 
2 
3 /* 
4 *+ test ~ Iterate over first "elems'" elements of array data' 
5 水 with stride of "stride!'. 
6 */ | 
7 void test(int elems, int stride) /* The test function */ 
8  { 
9 int i; 
10 double result = 0.0; 
1 volatile double sink; 
12 
13 for (i = 0; i < elems; i += stride) 
14 result += data[i]; 
15 } 
16 sink = result; /* So compiler doesn't optimize away the loop */ 
i7 3} 
18 
1 
20 * run ~ Run test(lelems, stride) and return read throughput (MB/s). 
21 * "size" is in bytes, "stride” is in array elements, and 
22 六 Mhz is CPU clock freguency in Mhz， 
23 六/ 
24 double run(int size, int stride, double Mhz) 
25 二 
26 double cycles ; 
27 .int elems = size / sizeof (double); 
28 
29 test(elems, stride); | /x warm up the Cache */ 
30 cycles = fcyc2(test, elems, stride, 0); /* call test (elems,stride) */ 
31 return (size / stride) / (cycles / Mhz); /* Convert cycles to MB/s */ 
3 2 } 


code/mem/mountain/mountain.c 


6-42 ”测量 和 计算 读 知 吐 量 的 函数 。 我 们 可 以 通过 以 不 同 的 size《〈 对 应 于 时 间 局 部 性 ) 和 stride 
(对 应 于 空间 局 部 性 ) 的 值 来 调用 run 函数 ， 产 生 某 台 计算 机 的 存储 器 山 


test 函数 通过 以 步 长 stride 扫 摘 整数 数组 的 头 elems 个 元 素来 产生 读 序 列 。run 函数 
是 一 个 包装 函数 (wrapper)， 它 调用 test 函数 ， 并 返回 测量 出 的 读 吞 吐 量 。 第 29 行 对 test 
函数 的 调用 会 对 高 速 缓存 做 暖 身 。 第 30 行 的 fcyc2 函数 以 参数 elems 调用 test 函数 ， 并 估 
计 test 函数 的 运行 时 间 ， 以 CPU 周期 为 单位 。 注 意 ，run 函数 的 参数 size 是 以 字 节 为 单位 
的 ， 而 test 函数 对 应 的 参数 elems 是 以 数组 元 素 为 单位 的 。 另 外 ， 注 意 第 31 行将 MB/s 计算 
为 10 字 节 / 秒 ， 而 不 是 2” 字 节 / 秒 。 
run 国 数 的 参数 size 和 stride 允许 我 们 控制 产生 出 的 读 序列 的 时 间 和 空间 局 部 性 程度 。 
size 的 值 越 小 ， 得 到 的 工作 集 越 小 ， 因 此 时 间 局 部 性 越 好 。stride 的 值 越 小 ， 得 到 的 空间 局 
部 性 越 好 。 如 果 我 们 反复 以 不 同 的 size 和 stride 值 调用 run 函数 ， 那 么 我 们 就 能 得 到 一 个 
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读 带 宽 的 时 间 和 空间 局 部 性 的 二 维 函 数 ， 称 为 存储 器 山 (memory mountain )。 

每 个 计算 机 都 有 表明 它 存 储 器 系统 的 能 力 特 色 的 唯一 的 存储 器 山 。 例 如 ， 图 6-43 展示 了 
Intel Core i7 系统 的 存储 器 山 。 在 这 个 例子 中 ，size 从 2KB 变 到 64KB，stride 从 1 变 到 64 
个 元 素 ， 每 个 元 素 是 一 个 8 个 字 节 的 double。 


Core 17 

2.67 GHz 

32 KB L1 d-cache 
256 KB L2 cache 
8 MB L3 cache 





> 时 间 局 部 性 山 冰 






读 吞 吐 量 (MBAs ) 





Stride (x8 字 节 )  ” 吕 


图 6-43 存储 器 山 


这 座 Core 这 山 的 地 形 地 势 展现 了 一 个 很 丰富 的 结构 。 牌 直 于 size 辅 的 是 四 条 山 养 ， 分 别 
对 应 于 工作 集 完 全 在 Ll 高 速 缓存 、L2 高 速 缓存 、L3 高 速 缓存 和 主 存 内 的 时 间 局 部 性 区 域 。 注 
意 ，L1 山 将 的 最 高 点 (那里 CPU 读 速 率 为 6GB/s) 与 主 存 山 状 的 最 低 点 〈 那 里 CPU 读 速 率 为 
600MB/s) 之 间 的 差别 有 一 个 数量 级 。 

L1 山脊 有 一 个 特性 应 该 指出 来 。 对 于 非常 大 的 步 长 ， 注 意 读 吞吐 量 是 如 何 随 着 工作 集 大 小 
接近 于 2KB 而 下 降 的 (跌落 到 山 将 的 男 一 边 )。 因 为 Ll 高 速 缓存 保存 着 整个 工作 集 ， 所 以 这 个 
特性 不 能 反映 L1 高 速 缓存 的 真实 性 能 。 它 们 是 调用 test 函数 和 准备 执行 循环 的 开销 的 结果 。 
对 于 小 的 工作 集中 的 大 步 长 来 说 ， 这 些 开 销 没 有 像 使 用 较 大 工作 集 时 那样 得 到 补偿 。 

在 L2、L3 和 主 存 山 消 上 随 着 步 长 的 增加 有 一 个 空间 局 部 性 的 斜坡 ， 空 间 局 部 性 下 降 。 注 意 ， 
即使 是 当 工 作 集 太 大 ， 不 能 全 都 装 进 任何 一 个 高 速 缓存 时 ， 主 存 山 着 的 最 高 点 也 比 它 的 最 低 点 高 
7 倍 。 因 此 ， 即 使 是 当 程序 的 时 间 局 部 性 很 差 时 ， 空 间 局 部 性 仍然 能 补救 ， 并 且 是 非常 重要 的 。 

有 一 条 特别 有 趣 的 平坦 的 山 脊 线 ， 对 于 步 长 1 和 2 垂直 于 步 长 轴 ， 此 时 读 吞 吐 量 相对 保持 不 
变 ， 为 4.5 GB/s。 这 显然 是 由 于 Core i7 存储 器 系统 中 的 硬件 预 取 (prefetching) 机 制 ， 它 会 目 动 
地 确认 存储 器 引用 模式 ， 试 图 在 一 些 块 被 访问 之 前 ， 将 他 们 取 到 高 速 缓存 中 。 虽 然 文 档 里 没有 记 
录 这 种 预 取 算法 的 细节 ， 但 是 从 存储 器 山 可 以 明显 地 看 到 这 个 算法 对 小 步 长 效果 最 好 一 一 这 也 是 
代码 中 要 使 用 顺序 访问 的 另 一 个 理由 。 

如 果 我 们 从 这 座 山 中 取出 一 个 片段 ， 保 持 步 长 为 常数 ， 如 图 6-44 所 示 ， 我 们 就 能 很 清楚 地 
看 到 高 速 缓存 的 大 小 和 时 间 局 部 性 对 性 能 的 影响 了 。 大 小 最 大 为 32KB 的 工作 集 完全 能 放 进 Ll 
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d-cache 中 ， 因 此 ， 在 吞吐 量 峰 值 6 GB/s 处 ， 读 都 是 由 L1 来 服务 的 。 大 小 最 大 为 256 KB 的 工作 
集 完 全 能 放 进 统一 的 工 2 高 速 缓存 中 ， 对 于 大 小 最 大 为 8M， 工 作 集 完全 能 放 进 统一 的 L3 高 速 组 
存 中 。 更 大 的 工作 集 大 小 主要 由 主 存 来 服务 。 


主 存 区 域 L3 高 速 缓存 区 域 L2 高 速 缓存 区 域 L1 高 速 缓存 区 域 


读 吞 吐 量 (MB/s) 





工作 集 大 小 ( 字 节 ) 
图 6-44 ”存储 器 山中 时 间 局 部 性 的 山脊 。 这 幅 图 展示 了 图 6-43 中 stride=16 时 的 一 个 片段 


L1、L2 和 LL3 高 速 缓存 区 域 最 左边 的 边缘 上 读 吞 吐 量 的 下 降 很 有 趣 ， 此 时 工作 集 大 小 为 
32 KB、256 KB 和 8 MB， 等 于 对 应 的 高 速 缓存 的 大 小 。 为 什么 会 出 现 这 样 的 下 降 ， 还 不 是 
完全 清楚 。 要 确认 的 唯一 方法 就 是 执行 一 个 详细 的 高 速 缓存 模拟 ， 但 是 这 些 下 降 很 有 可 能 是 
由 其 他 数据 和 代码 块 造 成 的 ， 这 些 数 据 和 代码 块 使 得 不 可 能 将 整个 数组 都 装 进 相应 的 高 速 组 
存 中 。 z 
以 相反 的 方向 横 切 这 座 山 ， 保 持 工作 集 大 小 不 变 ， 我 们 从 中 能 看 到 空间 局 部 性 对 读 吞 吐 
量 的 影响 。 例 如 ， 图 6-45 展示 了 工作 集 大 小 固定 为 4MB 时 的 片段 。 这 个 片段 是 沿 着 图 6-43 
中 的 13 山脊 切 的， 这 里 ， 工 作 集 完全 能 够 放 到 L3 高 速 缓存 中 ， 但 是 对 工 2 高 速 缓 存 来 说 太 
大 了 。 

注意 随 着 步 长 从 1 个 双 字 增长 到 8 个 双 字 ， 读 吞吐 量 是 如 何平 稳 地 下 降 的 。 在 山 的 这 个 区 
域 中 ，L2 中 的 读 不 命中 会 导致 一 个 块 从 LL3 传送 到 L2。 后 面 在 L2 中 这 个 块 上 会 有 一 定数 量 的 
命中 ， 这 是 取决 于 步 长 的 。 随 着 步 长 的 增加 ，L2 不 命中 与 L2 命中 的 比值 也 增加 了 。 因 为 服务 
不 命中 要 比 命中 更 慢 ， 所 以 读 吞 吐 量 也 下 降 了 。 一 旦 步 长 达到 了 8 个 双 字 ， 在 这 个 系统 上 就 等 
于 块 的 大 小 为 64 个 字 节 了 ， 每 个 读 请 求 在 L2 中 都 会 不 命中 ， 必 须 从 L3 服务 。 因 此 ， 对 于 至 
少 为 8 个 双 字 的 步 长 来 说 ， 读 吞吐 量 是 一 个 常数 速率 ， 是 由 从 L3 传送 高 速 缓存 块 到 L2 的 速 
率 决定 的 。 

总 结 一 下 我 们 对 存储 器 山 的 讨论 ， 存 储 器 系统 的 性 能 不 是 一 个 数字 就 能 描述 的 。 相 反 ， 它 
是 一 座 时 间 和 空间 局 部 性 的 山 ， 这 座 山 的 上 升 高 度 差 别 可 以 超过 一 个 数量 级 。 明 智 的 程序 员 会 
试图 构造 他 们 的 程序 ， 使 得 程序 运行 在 山峰 而 不 是 低谷 。 目 标 就 是 利用 时 间 局 部 性 ， 使 得 频繁 
使 用 的 字 从 Ll1 中 取出 ， 还 要 利用 空间 局 部 性 ， 使 得 尽 可 能 多 的 字 从 一 个 1 高 速 缓存 行 中 访 
问 到 。 
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5000 
4500 


读 吞 吐 量 (MBAs ) 
> 
S 





步 长 ( 字 ) 
6-45 一 个 空间 局 部 性 的 斜坡 。 这 幅 图 展示 了 图 6-43 中 size=4 MB 时 的 一 个 片段 





a 练习 题 6.22 ”利用 图 6-43 中 的 存储 器 山 来 估计 从 L1 d-cache 中 读 一 个 8 字 节 的 字 所 需要 的 时 间 (以 
CPU 周期 为 单位 )。 

6.6.2 重新 排列 循环 以 提高 空间 局 部 性 
考虑 一 对 nXn 矩阵 相 乘 的 问题 : C=4B。 例 如， 如 果 n=2， 那 么 


了 | 区 [人 | 多 和 | 
C21 C22 a21 42 Lb by2 


cn=anbutawby 


其 中 


C12=a1b12ta12b22 
C21=421b11ta22b21 
C22=Q21D12+a22b22 
矩阵 乘法 函数 通常 是 用 三 个 科 套 的 循环 来 实现 的 ， 分 别 用 索引 六 了 和 上 丰 来 标识 。 如 果 我 们 改变 循 
环 的 次 序 ， 对 代码 进行 一 些 其 他 的 小 改动 ， 我 们 就 能 得 到 矩阵 乘法 的 六 个 在 功能 上 等 价 的 版 本 ， 
如 图 6-46 所 示 。 每 个 版 本 都 以 它 循环 的 顺序 来 唯一 地 标识 。 

在 高 层 来 看 ， 这 六 个 版 本 是 非常 相似 的 。 如 果 加 法 是 可 结合 的 ， 那 么 每 个 版 本 计算 出 的 结果 
完全 一 样 9。 每 个 版 本 总 共 都 执行 O(n’) 个 操作 ， 而 加 法 和 乘法 的 数量 相同 。4 和 8B 的 rw 个 元 素 
中 的 每 一 个 都 要 读 n 次 。 计 算 C 的 zw 个 元 素 中 的 每 一 个 都 要 对 n 个 值 求 和 。 不 过 ， 如 果 分 析 最 
里 层 循环 迭代 的 行为 ， 我 们 发 现在 访问 数量 和 局 部 性 上 还 是 有 区 别 的 。 为 了 这 次 分 析 的 目的 ， 我 

。 每 个 数组 都 是 一 个 double 类 型 的 nXn 的 数组 ，sizeof (double) == 8。 

。 只 有 一 个 高 速 缓存 ， 其 块 大 小 为 32 字 广 (B=32)。 

数组 大 小 n 很 大 ， 以 至 于 矩阵 的 一 行 都 不 能 完全 装 进 Ll 高 速 缓存 中 。 

。 编 译 器 将 局 部 变量 存储 到 寄存 器 中 ， 因 此 循环 内 对 局 部 变量 的 引用 不 需要 任何 加 载 或 存储 

指令 。 


日 正如 我 们 在 第 2 章 中 学 到 的 ， 浮 点 加 法 是 可 交换 的 ， 但 是 通常 是 不 可 结合 的 。 实 际 上 ， 如 果 和 矩阵 不 把 极 大 的 数 
和 极 小 的 数 混在 一 起 一 一 存储 物理 属性 的 矩阵 常常 这 样 ， 那 么 假设 泽 点 加 法 是 可 结合 的 也 是 合理 的 。 





code/mem/matmull/mm.c 
for (i = 0; i < n; i++) 
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code/mem/matmul/mm.c 
for (j = 0; j < n; j++) 


1 1 

2 for (j = 0; j < n; j++) T 2 for (i = 0; i < n; i++) { 

3 sum = 0.0; 3 sum = 0.0; 

4 for (k = 0; k < n; k++) 4 for (k = 0; k < n; k++) 

5 sum += A[i] [kj *B[k] [jj]; 5 sum += A[i] fxk]*xB[k] 0] ; 

5 C[i] [j += sum; 6 C[i] [j] += sum; 

7 } } 
code/mem/matmuli/mm.c code/mem/matmul/mm.c 

a) ijk 版 本 b) ji 认 版 本 

code/mem/matmul/mm.c code/mem/matmul/mm.c 

1 for (j = 0; j < n; j++) 1 for (k = 0; k < n; k++) 

9 for (k = 0; k < n; k++) { 2 for (j = 0; j < ni j++) { 

> r = B[k][j]; 3 r = B[k]j[j]; 

4 for (i = 0; i < n; i++) 4 for (i = 0; i < n; i++) 

5 Cr[i] [j] += A[i] [k]*r; 5 C[ij[j] += AL [kj*r; 

人 } 6 } 
code/mem/matmul/mm.c code/mem/matmul/mm.c 

c) jki 版 本 d ji 版 本 

code/mem/matmult/mm.c code/mem/matmull/mm.c 

! for (Kk = 0; k < n; k++) 1 for (k = 0; k < Di k++) 

2 for (i = 0; i <n; i++) { 2 for (j=0; j <n; j++) { 

3 r = A[i] {kj; 3 r = B[k] [jj; 

4 for (j = 0; j < n; j++) 4 for (i = 0; i < n; i++) 

5 C[i] [j] += r*B[k] [j] ; 5 Cli]j [j] += A[i] [kj*r; 


code/mem/matmult/mm.c 


e) 所 版 本 


code/mem/matmult/mm.c 


f) i 版 本 


图 6-46 矩阵 乘法 的 六 个 版 本 。 每 个 版 本 都 以 它 循环 的 顺序 来 唯一 地 标识 


图 6-47 总 结 了 我 们 对 内 循环 的 分 析 结 果 。 注 意 六 个 版 本 成 对 地 形成 了 三 个 等 价 类 ， 用 内 循 
环 中 访问 的 矩阵 对 来 表示 每 个 类 。 例 如 ， 版 本 让 和 j 认 是 类 48 的 成 员 ， 因 为 它们 在 最 内 层 的 循 
环 中 引用 的 是 矩阵 4 和 B (而 不 是 C)。 对 于 每 个 类 ， 我 们 统计 了 每 个 内 循环 迭代 中 加 载 〈 读 ) 
和 存储 〈 写 ) 的 数量 ， 每 次 循环 迭代 中 对 4、B 和 C 的 引用 在 高 速 缓存 中 不 命中 的 数量 ， 以 及 每 
次 迭代 缓存 不 命中 的 总 数 。 

类 48 例 程 的 内 循环 〈 见 图 6-46a 和 图 6-46b) 以 步 长 1 扫描 数组 4 的 一 行 。 因 为 每 个 高 速 
缓存 块 保存 四 个 双 字 ，4 的 不 命中 率 是 每 次 迭代 不 命中 0.25 次 。 另 一 方面 ， 内 循环 以 步 长 n 扫 
描 数 组 B 的 一 列 。 因 为 n 很 大 ， 每 次 对 数组 B 的 访问 都 会 不 命中 ， 所 以 每 次 迭代 总 共 会 有 1.25 
次 不 命中 。 

每 次 迁 代 “| 每 次 迁 代 使 每 次 迁 代 使 
使 用 的 加 “| 用 的 存储 次 | 用 的 A 不 合 
载 次 数 数 中 次 数 


om | om 
im 





2 | 0 


图 6-47 ”矩阵 乘法 内 循环 的 分 析 。 六 个 版 本 分 为 三 个 等 价 类 ， 用 内 循环 中 访问 的 数组 对 来 表示 
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类 4C 例 程 的 内 循环 〈 见 图 6-46c 和 图 6-46d) 有 一 些 问题 。 每 次 迭代 执行 两 个 加 载 和 一 个 
存储 (相对 于 类 48 例 程 ， 它 们 执行 2 个 加 载 而 没有 存储 )。 内 循环 以 步 长 n 扫 描 4 和 C 的 列 。 
结果 是 每 次 加 载 都 会 不 命中 ， 所 以 每 次 迭代 总 共有 两 个 不 命中 。 注 意 ， 与 类 48 例 程 相 比 ， 交 换 
循环 降低 了 空间 局 部 性 。 

BC 例 程 ( 见 图 6-46e 和 图 6-46f) 展示 了 一 个 很 有 趣 的 折 中 : 使 用 了 两 个 加 载 和 一 个 存储 ， 
它们 比 48 例 程 多 需要 一 个 存储 器 操作 。 另 一 方面 ， 因 为 内 循环 以 步 长 为 1 的 访问 模式 按 行 扫描 B 
和 C， 每 次 迭代 每 个 数组 上 的 不 命中 率 只 有 0.25 次 不 命中 ， 所 以 每 次 迭代 总 共有 0.50 个 不 命中 。 

图 6-48 总 结 了 一 个 Core 这 系统 上 和 矩阵 乘法 各 个 版 本 的 性 能 。 这 个 图 画 出 了 测量 出 的 每 次 内 
循环 碗 代 所 需 的 CPU 周期 数 作为 数组 大 小 〈z) 的 函数 。 
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一 一 ki 
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图 6-48 ”Core i7 矩阵 乘法 性 能 。 图 例 : 皇 和 i: 类 A4C;ik 和 j 认 : 类 4B; 记 和 访 : 类 BC 


对 于 这 幅 图 有 很 多 有 意思 的 地 方 值得 注意 : : 

* 对 于 大 的 nn 值 ， 即 使 每 个 版 本 都 执行 相同 数量 的 浮 点 算术 操作 ， 最 快 的 版 本 比 最 慢 的 版 本 
运行 得 快 几乎 20 倍 。 

“每 次 迭代 存储 器 引用 和 不 命中 数量 都 相同 的 一 对 版 本 ， 有 大 致 相同 的 测量 性 能 。 

“ 存储 器 行为 最 粳 糕 的 两 个 版 本 ， 就 每 次 迭代 的 访问 数量 和 不 命中 数量 而 言 ， 明 显 地 比 其 
他 四 个 版 本 运行 得 慢 ， 其 他 四 个 版 本 有 较 少 的 不 命中 次 数 或 者 较 少 的 访问 次 数 ， 或 者 兼 
而 有 之 。 

“在 这 种 情况 下 ， 与 存储 器 访问 总 数 相 比 ， 不 命中 率 是 一 个 较 好 的 性 能 指示 。 例 如 ， 即 使 类 
BC 例 程 (2 个 加 载 和 1 个 存储 ) 在 内 循环 中 比 类 48 例 程 〈2 个 加 载 ) 执行 更 多 的 存储 器 
引用 ， 类 BC 例 程 CN 比 类 48 例 程 〈 每 次 迄 代 有 1.25 个 不 命中 ) 
性 能 还 是 要 好 很 多 。 

“对 于 较 大 的 的 值 ， 最 快 的 一 对 版 本 (好 和 汶 ) 的 性 能 保持 不 变 。 虽 然 这 个 数组 远大 于 
任何 SRAM 高 速 缓存 存储 器 ， 但 预 取 硬 件 足 够 聪明 ， 能 够 认 出 步 长 为 1 的 访问 模式 ， 而 且 
速度 足够 快 能 够 跟 上 内 循环 中 的 存储 器 访问 。 这 是 Intel 的 设计 这 个 存储 器 系统 的 工程 师 所 
做 的 一 项 极 好 成 就 ， 向 程序 员 提 供 了 甚至 更 多 的 鼓励 ， 鼓 励 他 们 开发 出 具有 民 好 空间 局 部 
性 的 程序 。 
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网 络 旁 注 MEM:BLOCKING : 使 用 分 块 来 提高 时 间 局 部 性 

有 一 项 很 有 趣 的 技术 ， 称 为 分 块 (blocking)， 它 可 以 提高 内 循环 的 时 间 局 部 性 。 分 块 的 大 致 
思想 是 将 一 个 程序 中 的 数据 结构 组 织 成 的 大 的 片 (chunks) 称 为 块 (block)。( 在 这 个 上 下 文中 ， 
“ 块 ” 指 的 是 一 个 应 用 级 的 数据 组 块 ， 而 不 是 高 速 缓存 块 。) 这 样 构造 程序 ， 使 得 能 够 将 一 个 片 
加 载 到 Ll 高 速 缓存 中 ， 并 在 这 个 片 中 进行 所 需 的 所 有 的 读 和 写 ， 然 后 丢掉 这 个 片 ， 加 载 下 一 个 
片 ， 依 此 类 推 。 z 

与 为 提高 空间 局 部 性 所 做 的 简单 循环 变换 不 同 ， 分 块 使 得 代码 更 难 阅读 和 理解 。 由 于 这 个 原 
因 ， 它 最 适合 优化 编译 器 或 者 频繁 执行 的 库 函 数 。 这 项 技术 学 习 和 理解 起 来 还 是 很 有 趣 的 ， 因 为 
它 是 一 个 通用 的 概念 ， 可 以 在 一 些 系 统 上 获得 极 大 的 性 能 收益 。 
6.6.3 ”在 程序 中 利用 局 部 性 

正如 我 们 看 到 的 ， 存 储 系 统 被 组 织 成 一 个 存储 设备 的 层次 结构 ， 较 小 、 较 快 的 设备 靠近 顶 
部 ， 较 大 、 较 慢 的 设备 靠近 底部 。 由 于 这 种 层次 结构 ， 程 序 访问 存储 位 置 的 有 效 速 率 不 是 一 个 数 
字 能 描述 的 。 相 反 ， 它 是 一 个 变化 很 大 的 程序 局 部 性 的 函数 〈 我 们 称 之 为 存储 器 山 )， 变 化 可 以 
有 几 个 数量 级 。 有 良好 局 部 性 的 程序 从 快速 的 高 速 缓存 存储 器 中 访问 它 的 大 部 分 数据 。 局 部 性 差 
的 程序 从 相对 慢 速 的 DRAM 主 存 中 访问 它 的 大 部 分 数据 。 

理解 存储 器 层次 结构 本 质 的 程序 员 能 够 利用 这 些 知识 编写 出 更 有 效 的 程序 ， 无 论 具 体 的 存储 
系统 结构 是 怎样 的 。 特 别 地 ， 我 们 推荐 下 列 技术 : 

“将 你 的 注意 力 集 中 在 内 循环 上 ， 大 部 分 计算 和 存储 器 访问 都 发 生 在 这 里 。 

“ 通过 按照 数据 对 象 存 储 在 存储 器 中 的 顺序 、 以 步 长 为 1 的 来 读数 据 ， 从 而 使 得 你 程序 中 的 

空间 局 部 性 最 大 。 : / / 

* 一 旦 从 存储 器 中 读 人 了 一 个 数据 对 象 ， 就 尽 可 能 多 地 使 用 它 ， 从 而 使 得 程序 中 的 时 间 局 部 

性 最 大 。 z 


6.7 ”小结 


基本 存储 技术 包括 随机 存储 器 (RAM)、 非 易 失 性 存储 器 (ROM) 和 磁盘 。RAM 有 两 种 基 
本 类 型 。 静 态 RAM (SRAM) 快 一 些 ， 但 是 也 贵 一 些 ， 它 既 可 以 用 做 CPU 芯片 上 的 高 速 缓存 ， 
也 可 以 用 做 芯片 下 的 高 速 缓存 。 动 态 RAM (DRAM) 慢 一 些 ， 也 便宜 一 些 ， 用 做 主 存 和 图 形 帧 
缓冲 区 。 非 易 失 性 存储 器 ， 也 称 为 只 读 存 储 器 〈ROM)， 即 使 是 在 关 电 的 时 候 ， 也 能 保持 它们 的 
信息 ， 它 们 用 来 存储 固件 。 旋 转 磁 盘 是 机 械 的 非 易 失 性 存储 设备 ， 以 每 个 位 很 低 的 成 本 保存 大 量 
的 数据 ， 但 是 访问 时 间 比 DRAM 更 长 。 固 态 硬盘 〈SSD) 基于 非 易 失 性 的 闪存 ， 越 来 越 变 成 旋 
转 磁 盘 对 某 些 应 用 的 具有 吸引 力 的 替代 产品 。 

一 般 而 言 ， 较 快 的 存储 技术 每 个 位 的 价格 会 更 高 ， 而 且 容 量 较 小 。 这 些 技术 的 价格 和 性 能 
属性 正在 以 显著 不 同 的 速度 变化 着 。 特 别 地 ，DRAM 和 磁盘 访问 时 间 远 远大 于 CPU 周期 时 间 。 
系统 通过 将 存储 器 组 织 成 存储 设备 的 层次 结构 来 弥补 这 些 差异 ， 在 这 个 层次 结构 中 ， 较 小 、 较 
快 的 设备 在 顶部 ， 较 大 、 较 慢 的 设备 在 底部 。 因 为 编写 良好 的 程序 有 好 的 局 部 性 ， 大 多 数 数 据 
都 可 以 从 较 高 层 得 到 服务 ， 结 果 就 是 存储 系统 能 以 较 高 层 的 速度 运行 ， 但 却 有 较 低层 的 成 本 和 
容量 。 

程序 员 可 以 通过 编写 有 良好 空间 和 时 间 局 部 性 的 程序 来 显著 地 改进 程序 的 运行 时 间 。 利 用 
基于 SRAM 的 高 速 缓存 存储 器 特别 重要 。 主 要 从 高 速 缓存 取 数 据 的 程序 能 比 主要 从 存储 器 取 数 
据 的 程序 运行 得 快 得 多 。 
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存储 器 和 磁盘 技术 变化 得 很 快 。 根 据 我 们 的 经 验 ， 最 好 的 技术 信息 来 源 是 制造 商 维护 的 
Web 页 面 。 像 Micron、Toshiba 和 Samsung 这 样 的 公司 ， 提 供 了 丰富 的 当前 有 关 存 储 器 设备 的 技 
术 信 息 。Seagate、Maxtor 和 Western Digital 的 页 面 也 提供 了 类 似 的 有 关 磁 盘 的 有 用 信息 。 

天 于 电路 和 他 辑 设计 的 教科 书 提供 了 关于 存储 器 技术 的 详细 信息 [56，85]。IEEE Spectrum 
出 版 了 一 系列 对 DRAM 的 综述 文献 [53]。 计 算 机 体系 结构 国际 会 议 (ISCA) 是 一 个 关于 DRAM 
存储 性 能 特性 的 公共 论坛 [34，35]。 

Wilkes 写 了 第 一 篇 关于 高 速 缓存 存储 器 的 论文 [116]。Smith 写 了 一 篇 经 典 的 综述 [101]。 
Przybylski 编写 了 一 本 关于 高 速 缓存 设计 的 权威 著作 [82]。Hennessy 和 Patterson 提供 了 对 高 速 组 
存 设计 问题 的 全 面 讨论 [49]。 

Stricker 在 [111] 中 介绍 了 存储 器 山 的 思想 ， 作 为 对 存储 器 系统 的 全 面 描述 ， 并 且 在 后 来 的 工 
作 摘 述 中 非 正式 地 提出 了 术语 “存储 器 山 ”。 编译 器 研究 者 通过 自动 执行 6.6 节 中 讨论 过 的 那些 
手工 代码 转换 来 增加 局 部 性 [22，38，63，68，75，83，118]。Carter 和 他 的 同事 们 提出 了 一 个 
可 知晓 高 速 缓存 的 存储 控制 器 〈cache-aware memory controller) [18]。Seward 开发 了 一 个 开放 源 
代码 的 高 速 缓存 剖析 程序 ， 称 为 cacheprof， 它 描述 了 C 程序 在 任意 模拟 的 高 速 缓 存 上 的 不 命 
中 行为 (www.cacheprof.org)。 其 他 的 研究 者 开发 出 了 不 知晓 高 速 缓存 的 〈cache oblivious ) 
算法 ， 它 被 设计 用 来 在 不 明确 知道 底层 高 速 缓存 存储 器 结构 的 情况 下 也 能 运 人 [36，42， 
43]。 

”关于 构造 和 使 用 磁盘 存储 设备 也 有 大 量 的 论著 。 许 多 存储 技术 研究 者 找寻 方法 ， 将 单个 的 磁 
盘 集 合成 为 更 大 、 更 健壮 和 更 安全 的 存储 池 [20，44，45，79，119]。 其 他 研究 者 找寻 利用 高 速 
缓存 和 局 部 性 来 改进 磁盘 访问 性 能 的 方法 [12，21]。 像 Exokernel 这 样 的 系统 提供 了 更 多 的 对 磁 
盘 和 存储 器 资源 的 用 户 级 控制 [55]。 像 安德鲁 文件 系统 [74] 和 Coda[91] 这 样 的 系统 ， 将 存储 器 
层次 结构 扩展 到 了 计算 机 网 络 和 笔记 本 电脑 。Schindler 和 Ganger 开发 了 一 个 有 趣 的 工具 ， 它 能 
自动 描述 SCSI 磁盘 驱动 器 的 构造 和 性 能 [92]。 研 究 者 正在 研究 构造 和 使 用 基于 闪存 的 SSD 的 技 
术 [8，77]。 


家 庭 作业 


**6.23 .假设 要 求 你 设计 一 个 每 条 磁道 位 数 固定 的 旋转 磁盘 。 你 知道 每 个 磁道 的 位 数 是 由 最 里 层 磁道 的 周 长 
确定 的 ， 你 可 以 假设 它 就 是 中 间 那 个 圆 洞 的 周 长 。 因 此 ， 如 果 你 把 磁盘 中 间 的 洞 做 得 大 一 点 ， 每 个 
磁道 的 位 数 就 会 增 大 ， 但 是 总 的 磁道 数 会 减少 。 如 果 用 + 来 表示 担 面 的 半径 ，x :rr 表示 图 洞 的 半径 ， 
那么 x 取 什 么 值 能 使 这 个 磁盘 的 容量 最 大 ? 

*6.24 ”估计 访问 下 面 这 个 磁 失 上 扁 区 的 平均 时 间 (以 ms 为 单位 ): 

数 人 

这 和 

| 

: 平均 肩 区 数 /磁道 |50 | 

**6.25 假设 一 个 3MB 的 文件 ， 由 1024 个 字 节 的 逻辑 块 组 成 ， 存 储 在 具有 下 述 特 性 的 磁盘 驱动 器 上 : 







平均 区 数 / 磁道 
扇 区 大 小 1024 字 节 





* 6.26 


+ 6.27 


* 6.28 


**6.29 


** 6.30 
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对 于 下 面 的 每 种 情况 ， 假 设 程序 顺序 地 读 文 件 的 逻辑 块 ， 一 个 接 一 个 ， 并 且 对 第 一 个 块 定位 读 / 写 
头 的 时 间 等 于 TaveseoetTsveroution。 

A. 最 好 情况 : 估计 在 所 有 可 能 的 逻辑 块 到 磁盘 鹿 区 的 映射 上 读 该 文件 所 需要 的 最 优 时 间 《〈 以 ms 为 单位 )。 
B. 随机 情况 : 估计 如 果 块 是 随机 映射 到 磁盘 肩 区 上 时 读 该 文件 所 需要 的 时 间 《〈 以 ms 为 单位 )。 

下 面 的 表 给 出 了 一 些 不 同 的 高 速 缓存 的 参数 。 对 于 每 个 高 速 缓存 ， 填 写 出 表 中 缺失 的 字段 。 记 住 m 
是 物理 地 址 的 位 数 ，C 是 高 速 绥 存 大 小 (数据 字 节 数 )，B 是 以 字 节 为 单位 的 块 大 小 ，E 是 相 联 度 ，5S 
是 高 速 缓存 组 数 , 1 是 标记 位 数 ，s 是 组 索引 位 数 ， 而 b 是 块 偏 移 位 数 。 





下 面 的 表 给 出 了 一 些 不 同 的 高 速 缓存 的 参数 。 你 的 任务 是 填写 出 表 中 缺失 的 字段 。 记 住 六 是 物理 地 
址 的 位 数 ，C 是 高 速 缓存 大 小 《数据 字 节 数 )， 召 是 以 字 节 为 单位 的 块 大 小 , 妃 是 相 联 度 ，S8 是 高 速 
缓存 组 数 ，! 是 标记 位 数 ，s 是 组 索引 位 数 ， 而 b 是 块 偏 移 位 数 。 





这 个 问题 是 关于 练习 题 6.13 中 的 高 速 缓存 的 。 
A. 列 出 所 有 会 在 组 6 中 命中 的 十 六 进 制 存储 器 地 址 。 
B. 列 出 所 有 会 在 组 1 中 命中 的 十 六 进 制 存储 器 地 址 。 
这 个 问题 是 关于 练习 题 6.13 中 的 高 速 缓存 的 。 
A. 列 出 所 有 会 在 组 7 中 命中 的 十 六 进 制 存储 器 地 址 。 
B. 列 出 所 有 会 在 组 5 中 命中 的 十 六 进 制 存储 器 地 址 。 
C. 列 出 所 有 会 在 组 4 中 命中 的 十 六 进 制 存储 器 地 址 。 
D. 列 出 所 有 会 在 组 2 中 命中 的 十 六 进 制 存储 器 地 址 。 
假设 我 们 有 一 个 具有 如 下 属性 的 系统 : 
。 存 储 器 是 字 节 寻 址 的 。 
。 存 储 器 访问 是 对 1 字 节 字 的 〈 而 不 是 4 字 节 字 )。 
。 地 址 宽 12 位 。 
。 高 速 缓存 是 两 路 组 相 联 的 〈E=2)， 块 大 小 为 4 字 节 〈B=4)， 有 四 个 组 〈S=4)。 
高 速 缓存 的 内 容 如 下 ， 所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表示 : 
组 索引 标记 。 有 效 位 ” 字 节 0  ” 字 节 1 ” 字 节 2  ” 字 节 3 
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* 6.31 


**6.32 


锚 一 部分 ”在 访 红 攀 和 的 广 


A. 下 面 的 图 给 出 了 一 个 地 址 的 格式 《每 个 小 框 表示 一 位 )。 指 出 用 来 确定 下 列 信息 的 字段 《在 图 中 标号 
出 来 ) : 
CO 高 速 缓 存 块 偏 移 

CI 高 速 缓存 组 索引 
CT 高速 艘 存 标记 


B. 对 于 下 面 每 个 存储 器 访问 ， 当 它们 是 按照 列 出 来 的 顺序 执行 时 ， 指 出 是 高 速 缓 存 命中 还 是 不 命中 。 
如 果 可 以 从 高 速 缓 存 中 的 信息 推断 出 来 的 话 ， 请 给 出 读 出 的 值 。 


TT 












号 | oOA | | 
_ 读 | 3] | | 
假设 我 们 有 一 个 具有 如 下 属性 的 系统 : 
“存储 器 是 字 节 寻 址 的 。 
“存储 器 访问 是 对 1 字 节 字 的 (而 不 是 4 字 节 字 )。 


。 地 址 宽 13 位 。 

。 高 速 绥 存 是 四 路 组 相 联 的 《E=4)， 块 大 小 为 4 字 节 (B=4)， 有 八 个 组 (5S=8)。 

考虑 下 面 的 高 速 缓存 状态 。 所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表示 。 每 组 有 四 行 ， 索 引 列 包含 组 
索引 。 标 记 列 包含 每 一 行 的 标记 值 。 信 列 包含 每 一 行 的 有 效 位 。 字 节 0 ~ 3 列 包 含 每 一 行 的 数据 ， 
标号 从 左 向 右 ， 字 节 0 在 左边 。 


4 路 组 相 联 高 速 缓存 


索引 标记 标记 六 ” 字 节 0 一 3 标记 标记 六 字 节 0 一 3 


0 
1 
2 
3 
4 
5 
6 
7 


04 2A 32 6A 


A. 这 个 高 速 缓存 的 大 小 〈C) 是 多 少 字 节 ? 
B. 下面 的 图 给 出 了 一 个 地 址 的 格式 《每 个 4 


号 出 来 ) : 
CO 


BF 80 1D FC 


16 7B ED 5A | 


DC 81 B2 14 
27 95 A4 74 
22 C2 DC 34 
BC 91 D5 92 
69 C2 8C 74 
Bi 86 56 OE 


高 速 缓存 块 偏 移 


EF 09 86 2A | 


8E 4C DF 18 
B6 1F 7B 44 
07 11 6B D8 
BA DD 37 D8 
80 BA 9B F6 
A8 CE 7F DA 
96 30 47 F2 


25 44 6F 1A 
FB B7 12 02 
10 Fb B8 2E 
C7 B7 AF C2 
E7 A2 39 BA 


48 16 81 0A 


FA 93 EB 48 
F8 1D 42 30 





\ 框 表示 一 位 )。 指 出 用 来 确定 下 列 信息 的 字段 《在 途中 标 


CI 高 速 缓存 组 索引 
CT 高 速 缓存 标记 
12 11 10 9 8 7 6 5 4 3 2 1 0 


EE 


假设 程序 使 用 作业 6.31 中 的 高 速 缓 存 ， 引 用 位 于 地 址 0x0718 处 的 1 字 节 字 。 用 十 六 进 制 表示 出 它 
所 访问 的 高 速 缓存 条 目 ， 以 及 返回 的 高 速 缓 存 字 节 值 。 指 明 是 否 发 生 了 高 速 缓存 不 命中 。 如 果 有 高 
速 缓 存 不 命中 ， 对 于 “返回 的 高 速 缓存 字 节 ” 输 入 “一 ”。 提 示 : 注意 那些 有 效 位 ! 

A. 地 址 格式 《每 个 小 框 表示 一 位 ) : 
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B. 存储 器 引用 : 








IC 
py CE 
ET 


**6.33 ”对 于 存储 器 地 址 0x16EC 重复 作业 6.32。 
A. 地 址 格式 〈 每 个 小 框 表示 一 位 ) : 
12 11 10 9 8 7 6 5 4 3 2 1 0 





B. 存储 器 引用 : 


块 偏 移 量 (CO) 


过 CD oo 


高 速 缓存 示 记 〈CT) Om | 
高 速 缓存 命中 ? (是 / 否 ) | | 
返回 的 高 速 组 有 值 | 0x 





**6.34 对 于 作业 6.31 中 的 高 速 缓存 ， 列 出 会 在 组 5 中 命中 的 八 个 存储 器 地 址 〈 以 十 六 进 制 表示 )。 
**6.35 考虑 下 面 的 矩阵 转 置 函数 : 


typedef int array[4] [4] ; 


] 

2 

3 void transpose2(array dst, array src) 
4 

5 


{ 
int i, j; 

, , 
2 for (i = 0; i < 4; i++) { 
8 for (j = 0; j < 4; j++) { 
9 dst[i] [j] = src[j] [i]; 
10 } 
11 } 
12 


假设 这 段 代 码 运 行 在 一 合 具有 如 下 属性 的 机 器 上 : 

。sizeof (int) == 

* 数组 src 从 地 址 0 开始 ， 而 数组 dst 从 地 址 64 开始 〈 十 进 制 )。 

。 只 有 一 个 LI1 数据 高 速 缓存 ， 它 是 直接 映射 、 直 写 、 写 分 配 的 ， 块 大 小 为 16 字 节 。 

。 这 个 高 速 缓存 总 共有 32 个 数据 字 节 ， 初 始 为 空 。 

。 对 src 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

对 于 每 个 row 和 co1， 指 明 对 src[row] [col] 和 和 dst[row] [col] 的 访问 是 命中 (h) 还 是 不 命 
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中 (m)。 例 如 ， 读 src[0] [0] 会 不 命中 ， 而 写 dst [0] [0] 也 会 不 命中 。 


dst 数组 src 数组 
列 0 ” 列 1 列 2 列 3 列 0 列 1 列 2 列 3 
行 0 行 0 
行 1 行 1 
行 2 行 2 
Ps 行 3 


**6.36 对 于 一 个 总 大 小 为 128 数据 字 节 的 高 速 级 存 ， 重 复 练习 题 6.35。 


dst 数组 src 数组 
列 0 列 1 列 2 列 3 列 0 列 1 列 2 列 3 
行 0 行 0 
行 1 
行 2 行 2 
行 3 


xx 6.37 ”这 道 题 测试 你 预测 C 语言 代码 的 高 速 缓存 行为 的 能 力 。 对 下 面 这 段 代码 进行 分 析 : 
int x[2] [256] ; 

int i; 

int sum = 0; 


for (i = 0; i < 256; i++) { 
sum += x[0] [i] * x{[1] [i]; 


Ai 人 WAw NU 一 


} 
假设 我 们 在 下 列 条 件 下 执行 这 段 代码 : 


。sizeof (int) == 4。 
。 数 组 x 从 存储 器 地 址 0x0 开始 ， 按 照 行 优先 顺序 存储 。 
。 在 下 面 每 种 情况 中 ， 高 速 缓存 最 开始 时 都 是 空 的 。 
。 唯 一 的 存储 器 访问 是 对 数组 x 的 条 目 进行 访问 。 其 他 所 有 的 变量 都 存储 在 寄存 器 中 。 
给 定 这 些 假设 ， 估 计 下 列 情况 中 不 命中 率 。 
A. 情 况 1 : 假设 高 速 缓存 是 1024 字 节 ， 直 接 映 射 ， 高 速 缓存 块 大 小 为 32 字 节 。 不 命中 率 是 多 少 ? 
B. 情况 2 : 如 果 我 们 把 高 速 缓存 的 大 小 翻 倍 到 2048 字 节 ， 不 命中 率 是 多 少 ? 
C. 情况 3 : 现在 假设 高 速 缓存 是 1024 字 节 ， 两 路 组 相 联 ， 使 用 LRU 替换 策略 ， 高 速 缓存 块 大 小 为 
32 字 节 。 不 命中 率 是 多 少 ? 
D. 对 于 情况 3， 更 大 的 高 速 缓存 大 小 会 帮助 降低 不 命中 率 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 
E. 对 于 情况 3， 更 大 的 块 大 小 会 帮助 降低 不 命中 率 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 
**6.38 ”这 道 题 也 是 测试 你 分 析 C 语言 代码 的 高 速 缓存 行为 的 能 力 。 假 设 我 们 在 下 列 条 件 下 执行 图 6-49 中 
的 三 个 求 和 函数 : 
。sizeof (int) == 4。 
。 机 器 有 4KB 直接 映射 的 高 速 缓存 ， 块 大 小 为 16 字 节 。 
。 在 两 个 循环 中 ， 代 码 只 对 数组 数据 进行 存储 器 访问 。 循 环 索引 和 值 sum 都 存放 在 寄存 器 中 。 
。 数 组 a 从 存储 器 地 址 0x08000000 处 开始 存储 。 
对 于 N=64 和 N=60 两 种 情况 ， 在 表 中 填写 它们 大 概 的 高 速 缓存 不 命中 率 。 





划 6 划 疗 角 回 屋 光 乡 榴 439 


*6.39 3M™ 决定 在 白 纸 上 印 黄 方 格 ， 做 成 Post-It@ 小 贴纸 。 在 打印 过 程 中 ， 他 们 需要 设置 方 格 中 每 个 点 的 
CMYK ( 蓝 色 ， 红 色 ， 黄 色 ， 黑 色 ) 值 。3M 雇用 你 判定 下 面 算法 在 一 个 具有 1024 字 节 、 直 接 映 射 、 
块 大 小 为 64 字 节 的 数据 高 速 缓存 上 的 效率 。 有 如 下 定义 : 


typedef int array_t[N] [N] ; 


int SumA(array_t a) 
{ 
int i, j; 
int Sum = 0; 
for (i = 0; i < N; i++) 
for (j = 0; j < N; j++) { 
sum += a[i] [j] ; 
} 


return sum; 


sumB(array_t a) 


int i, j; 
int sum = 0; 
for (j = 0; j < N; j++) 
for (i = 0; i < N; i++) { 
sum += a[il] [jj]; 
} 


return sum; 


sumC (array_t a) 


int 工 J; 
int Sum = 0; 
for (j = 0; j < N; j+=2) 
for (i = 0; i < N; i+=2) { 
sum += (a[li] [j] + a[i+1] [j] 
+ a[i] [j+1] + a[i+1] [j+1]); 
} 


return sum; 





图 6-49 作业 6.38 中 引用 的 函数 
struct point_color { 
int c; 


3 

S 

6 }; 
7 

8 struct point_color square[16] [16] ; 

0 int i, j; 

有 如 下 假设 : 

» sizeof (int) == 

。square 起 始 于 存储 器 地 址 0。 

* 高 速 缓存 初始 为 空 。 

* 唯一 的 存储 器 访问 是 对 于 square 数组 中 的 元 素 。 变 量 i 和 jj 被 存放 在 寄存 器 中 。 
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确定 下 列 代码 的 高 速 缓存 性 能 : 


| for (i = 0; i < 16; i++){ 

2 for (j = 0; j < 16; j++) { 
3 square[i] [jj .c = 0; 
4 
5 


square[i] [jj] .m = 0; 
: square[i] [jj .y = 1; 
6 square[i] [jj] .k = 0; 
7 } 
8 “ 二 


A. 写 总 数 是 多 少 ? 
B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
给 定 家庭 作 业 6.39 中 的 假设 ， 确 定 下 列 代码 的 高 速 绥 存 性 能 : 


for (i = 0; i < 16; i++){ 


1 

2 for (j = 0; j < 16; j++) +{ 
3 square[j] [ij.c = 0; 

4 square[j] [i] .m = 0; 

5 square[j] Li].y = 1; 

6 square[j] [i] .k = 0; 

7 F 

8 } 

A. 写 总 数 是 多 少 ? 


B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
给 定 家 庭 作业 6.39 中 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 : 


1 for (i = 0; i < 16; i++) { 

2 for (j = 0; j < 16; j++) + 
3 square[i] [j].y = 

4 } 

5 } 

6 for (i = 0; i < 16; i++) { 

7 for (j = 0; j < 16; j++) { 
8 square[i] [jj.c = 0; 

9 square[i] [jl .m = 0; 

10 square[i][j].k = 0; 

11 J 

1 吓 


A. 写 总 数 是 多 少 ? 
B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
你 正在 编写 一 个 新 的 3D 游戏 ， 希 望 能 名 利 双 收 。 你 现在 正在 写 一 个 函数 ， 使 得 在 画 下 一 帧 之 前 先 清 
空 屏 幕 缓 冲 区 。 你 现在 工作 的 屏幕 是 640X480 像素 数组 。 你 工作 的 机 器 有 一 个 64KB 直接 映射 高 速 
缓存 ， 每 行 4 个 字 节 。 你 使 用 下 面 的 C 语言 数据 结构 : 

1 struct pixel { 
2 char 工 ; 
3 char g; 
4 char b; 
5 char 3; 
i 
7 


**6.43 


** 6.44 


** 6.45 


** 6.46 


**6.47 
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8 struct pixel buffer[L480] [640] ; 
9 int i, j; 
10 char *cptr; 
11 int *iptr; 
有 如 下 假设 : 
。 Sizeof (char)==1 和 sizeof (int)== 
“buffer 起 始 于 存储 器 地 址 0。 
。 高速 缓存 初始 为 空 。 
* 唯一 的 存储 器 访问 是 对 于 buffer 数组 中 元 素 的 访问 。 和 
下 面 代码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 
for (j = 0; j < 640; j++) { 
for (i = 0; i < 480; i++)1{ 
buffer[i] [jl].r 
buffer[i] [j] .g 
buffer[i] [j] .b 
人 le 


0 

0 
0 
0 


[| | 


} 
给 定 家 庭 作业 6.42 中 的 假设 ， 下 面 代码 中 百 分 之 多 少 的 写 会 在 高 速 稻 存 中 不 命中 ? 


char *cptr = (eas *) buffer; 
2 for (; cptr < (((char *) buffer) + 640 * 480 * 4); ee 
3 *cptr = 0; 
给 定 家 庭 作业 6.42 中 的 假设 ， 下 面 代码 中 百 分 之 多 少 的 写 会 在 高 束 缆 存 中 不 命中 ? 
1 int *iptr = (int *)buffer; 
2 for (; iptr < ((int *)buffer + a iptr++) 
: *iptr = 0; 
从 CS:APP2 的 网 站 上 下 载 mountain 程序 ， 在 你 最 喜欢 的 PC/Linux 系统 上 运行 它 。 根据 结果 估计 
你 系统 上 的 高 速 缓存 的 大 小 。 
在 这 项 任务 中 ， 你 会 把 你 在 第 5 章 和 第 6 章 中 学 习 到 的 概念 应 用 到 一 个 存储 器 使 用 频繁 的 代码 的 优 
化 问题 上 。 考 虑 一 个 拷贝 并 转 置 一 个 类 型 为 int 的 NXN 算 阵 的 过 程 。 也 就 是 ， 对 于 源 华 阵 S 自 
的 矩阵 刀 ， 我 们 要 将 每 个 元 素 s,, ;拷贝 到 4d, ;,。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 : 
1 void transpose(int *dst, int *src, int dim) 
{ 
int i, j; - 
for (i = 0; i < dim; i++) 
for (j = 0; j < dim; j++) 
dst[j*dim + i] = src[i*dim + j]; 


这 里 ， 过 程 的 参数 是 指向 目的 矩阵 〈dst) 和 源 人 矩阵 (src) 的 指针 ， 以 及 矩阵 的 大 小 N (dim)。 
你 的 工作 是 设计 一 个 运行 得 尽 可 能 快 的 转 置 函数 。 

ee 个 有 趣 的 变 体 。 考 虑 将 一 个 有 向 图 8 转换 成 它 对 应 的 无 向 图 g&' 。 图 8 有 一 
条 从 顶点 x& 到 顶点 的 边 ， 当 且 仅 当 原 图 8 中 有 一 条 2 到 v 或 者 v 到 2 的 边 。 图 g8 是 由 如 下 的 它 的 
邻接 矩阵 〈adjacency matrix) G 表示 的 。 如 果 N 是 8 中 顶点 的 数量 ， 那 么 G 是 一 个 WXN 的 和 矩阵， 
它 的 元 素 是 全 0 或 者 全 1。 假设 g 的 顶点 是 这 样 命名 的 : yu，w，…，w-is 那么 如 果 有 一 条 从 六 到 局 
的 边 ， 那 么 G[ID] 为 1， 否则 为 0。 注意， 邻接 矩阵 对 角 线 上 的 元 素 总 是 1， 而 无 向 图 的 邻接 矩阵 是 
对 称 的 。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 : 

1 void col_convert(int *G, dnt dim) 工 

2 int i, j; 


J 
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4 for (i = 0; i < dim; i++) 

5 for (j = 0; j < dim; j++) 

6 G[j*dim + i] = G[j*dim + i || G[i*dim + j] ; 

7 } 

你 的 工作 是 设计 一 个 运行 得 尽 可 能 快 的 函数 。 同 前 面 一 样 ， 要 提出 一 个 好 的 解答 ， 需 要 应 用 你 在 第 
5 章 和 第 6 章 中 所 学 到 的 概念 。 


练习 题 答案 


练习 题 6.1 这 里 的 思想 是 通过 使 纵横 比 max(r，c)/min(r，c) 最 小 ， 使 得 地 址 位 数 最 小 。 换 外 话说， 数组 越 
接近 于 正方 形 ， 地 址 位 数 越 少 。 





练习 题 6.2 ”这 个 小 练习 的 主旨 是 确保 你 理解 柱 面 和 磁道 之 间 的 关系 。 一 旦 你 弄 明 白 了 这 个 关系 ， 那 问题 就 


很 简单 了 : 
512 字 节 ”400 扇 区 数 ”10 000 磁 道 数 ”2 表面 数 2 盘 片 数 
er pr 
扇 区 track 表面 盘 片 磁盘 
= 8 192 000 000 字 节 
= 8.192 GB 


练习 题 6.3 ”对 这 个 问题 的 解答 是 对 磁盘 访问 时 间 公 式 的 直接 应 用 。 平均 旋转 时 间 (以 ms 为 单位 ) 为 
T， =IM2x7T 


=1/2 x(60 sooa/15 000 RPM) x 1000 ms/sec 


~2 ms 


avg rotation 


平均 传送 时 间 为 
Tunser 二 《60secs/15 000 RPM) x1/500 扇 区 / 磁道 X1000 ms/sec 
一 0. 008 ms 
总 的 来 说 ， 总 的 预计 访问 时 间 为 
2 .WE 
=8 ms +2 ms +0. 008 ms 


~=10 ms 


练习 题 6.4 这 道 题 很 好 地 检查 了 你 对 影响 磁盘 性 能 的 因素 的 理解 。 首 先 我 们 需要 确定 这 个 文件 和 磁盘 
的 一 些 基本 属性 。 这 个 文件 由 2000 个 512 字 节 的 逻辑 块 组 成 。 对 于 磁盘 ，Tivs soa=5ms，Tiwax ruiom=6 ms， 而 
Tavg rotation™3 NS。 

A. 最 好 情况 : 在 好 的 情况 下 ， 块 被 映射 到 连续 的 扁 区 ， 在 同一 柱 面 上 上， 那样 就 可 以 一 块 接 一 块 的 读 ， 
不 用 移动 读 / 写 头 。 一 旦 读 / 写 头 定 位 到 了 第 一 个 扁 区 ， 需 要 磁盘 转 两 整 轿 〈 每 图 1000 个 肩 区 ) 来 读 所 有 
2000 个 块 。 所 以 ， 读 这 个 文件 的 总 时 间 为 Tovg seoxt Tavgrowtiont2*Tiax rotation=5+3+12=20ms。 

B. 随机 的 情况 : 在 这 种 情况 下 ， 块 被 随机 的 映射 到 扁 区 上 ， 读 2000 块 中 的 每 一 块 都 需要 Ts eek+Tse vomtion ms 
所 以 读 这 个 文件 的 总 时 间 为 〈Tavwe sse+Tewsruiom) *2000 = 16 000ms (16 秒 )。 你 现在 可 以 看 到 为 什么 清理 磁 
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盘 碎 片 是 个 好 主意 ! 
练习 题 6.5 ”这 个 问题 ， 基 于 图 6-14 中 的 区 图 ， 能 很 好 地 测试 你 对 磁盘 构造 的 理解 ， 它 还 能 使 你 推断 出 一 
个 真实 磁盘 驱动 器 的 有 趣 特 性 。 

A. 区 0。 一 共有 864X8X3201=22 125 312 个 扁 区 ，22 076 928 个 逻辑 块 被 分 配 到 区 0， 一 共有 22 125 312 一 
22 076 928=48 384 个 备用 扁 区 。 假 设 每 个 柱 面 有 864X8=6912 个 扁 区 ， 那 么 区 0 中 有 48 384/6912=7 个 备 
用 柱 面 。 司 

B. 区 8。 类 似 的 分 析 说 明 区 8 中 有 ((3700X5632) 一 20 804 608)/5632=6 个 备用 柱 面 。 
练习 题 6.6 这 是 一 个 简单 的 练习 ， 让 你 对 SSD 的 可 行 性 有 一 些 有 趣 的 了 解 。 回 想 一 下 对 于 磁 替 ， 
1PB=10”MB。 那 么 下 面 对 单 位 的 直接 翻译 得 到 了 下 面 的 每 种 情况 的 预测 时 间 : 

A. 最 糟糕 情况 顺序 写 (170MB/s) : 10?X(1/170)X(1/(86 400X365)) = 0.2 年 。 

B. 最 糟糕 情况 随机 写 (14MB/s) : 10”X(1/14)X(1/(86 400X365)) = 2.25 年 。 

C. 平均 情况 〈20GB/ 天 ) : 10”X(1/20 000)X(1/365) = 140 年 。 
练习 题 6.7 ”在 2000 年 到 2010 年 的 10 年间 ， 旋 转 磁 副 的 单位 价格 下 降 了 大 约 30 倍 ， 这 意味 着 价格 大 约 每 
2 年 下 降 2 倍 。 假 设 这 个 趋势 一 直 持 续 ，1PB 的 存储 设备 ， 在 2010 年 花费 300 000 美元 ， 在 十 次 这 种 2 售 
的 下 降 之 后 会 降 到 500 美元 。 因 为 这 种 下 降 每 2 年 发 生 一 次 ， 我 们 可 以 预期 在 大 约 2030 年 ， 可 以 用 500 美 
元 买 到 1PB 的 存储 设备 。 
练习 题 6.8 为 了 创建 一 个 步 长 为 工 的 引用 模式 ， 必 须 改变 循环 的 次 序 ， 使 得 最 右边 的 索引 变化 得 最 快 : 

int sumarray3d(int al[N] LN] [NJ]) 


1 

2 苹 

3 int i, j, k, sum = 0; 

4 

5 for (k = 0; k < N; k++) 1 

6 for (i = 0; i < N; i++) { 

7 for (j = 0; j < N; j++) { 
8 sum += a[k] [ij] [jj]; 
9 } : 

10 } 

11 } 

12 return SUm; 

13 3 


这 是 一 个 很 重要 的 思想 。 要 保证 你 理解 了 为 什么 这 种 循环 次 序 改 变 就 能 得 到 一 个 步 长 为 1 的 访问 模式 。 
练习 题 6.9 解决 这 个 问题 的 关键 在 于 想象 出 数组 是 如 何在 存储 器 中 排列 的 ， 然 后 分 析 引 用 模式 。 函 
数 clearl 以 步 长 为 1 的 引用 模式 访问 数组 ， 因 此 明显 地 具有 最 好 的 空间 局 部 性 。 函 数 clear2 依次 扫 
描 六 个 结构 中 的 每 一 个 ， 这 是 好 的 ， 但 是 在 每 个 结构 中 ， 它 以 步 长 不 为 工 的 模式 跳 到 下 列 相对 于 结构 起 始 
位 置 的 偏 移 处 : 0、12、4、16、8、20。 所 以 cleazr2 的 空间 局 部 性 比 clearl 的 要 差 。 函 数 clear3 不 
仅 在 每 个 结构 中 跳 来 跳 去 ， 而 且 还 从 结构 跳 到 结构 ， 所 以 clear3 的 空间 局 部 性 比 clear2 和 clearl 都 
要 差 。 
练习 题 6.10 ”这 个 解答 是 对 图 6-28 中 各 种 高 速 缓存 参数 定义 的 直接 应 用 。 不 那么 令 人 兴奋 ， 但 是 在 真正 理 
解 高 速 缓存 是 如 何 工 作 的 之 前 ， 你 需要 理解 高 速 缓存 的 结构 是 如 何 导致 这 样 划分 地 址 位 的 。 





练习 题 6.11 填充 消除 了 冲突 不 命中 。 因 此 ， 四 分 之 三 的 引用 是 命中 的 。 
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练习 题 6.12 有 时 候 ， 理 解 为 什么 某 种 思想 是 不 好 的 ， 能 够 帮助 你 理解 为 什么 另 一 种 是 好 的 。 这 里 ， 我 们 
看 到 的 坏 的 想法 是 用 高 位 来 索引 高 速 缓存 ， 而 不 是 用 中 间 的 位 。 

A. 用 高 位 做 索引 ， 每 个 连续 的 数组 片 (chunk) 是 由 2 个 块 组 成 的 ， 这 里 1 是 标记 位 数 。 因 此 ， 数 组 
头 2 个 连续 的 块 都 会 映射 到 组 0， 接 下 来 的 2' 个 块 会 映射 到 组 1， 依 此 类 推 。 

B. 对 于 直接 映射 高 速 缓存 (S$，E，B，m) = (512，1，32，32)， 高 速 缓存 容量 是 512 个 32 字 节 的 块 ， 
每 个 高 速 缓 存 行 中 有 三 18 个 标记 位 。 因 此 ， 数 组 中 头 2 个 块 会 映射 到 组 0， 接 下 来 28 个 块 会 映射 到 组 1。 
因为 我 们 的 数组 只 由 (4096*4)/32=512 个 块 组 成 ， 所 以 数组 中 所 有 的 块 都 被 映射 到 组 0。 因此， 在 任何 时 
刻 ， 高 速 缓存 至 多 只 能 保存 一 个 数组 块 ， 即 使 数组 足够 小 ， 能 够 完全 放 到 高 速 缓存 中 。 很 明显 ， 用 高 位 做 
索引 不 能 充分 利用 高 速 缓存 。 
练习 题 6.13 两 个 低位 是 块 偏 移 “CO)， 然 后 是 三 位 的 组 索引 CI)， 剩 下 的 位 作为 标记 (CT): 

12 11 10 9 8 7 6 5 4 3 2. 1 0 
练习 题 6.14 地址 : 0x0E34 

A. 地 址 格式 《每 个 小 格子 表示 一 个 位 ): 

12 11 10 9 8 7 6 5 4 3 2 1 .00 


是 汪 交 和 


1 | 1 1 |1 1 
CT CT CT CT CT CT CT CT CI CI CI CO CO 





B. 存储 器 引用 : 





练习 题 6.15 “地址 ; 0x0DD5 
A. 地 址 格式 〈 每 个 小 格子 表示 一 个 位 ) : 


l2 11 10 9 8 1 0 
1 


7 6 5 4 3 2 
a 
CT CT CT CT CT CT CT CT CI CI CI CO CO 
B. 存储 器 引用 : 






返回 的 高 速 级 方 字 节 | 一 

练习 题 6.16 ”地 址 : 0x1FF4 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 

12 11 10 9 8 7 6 5 4 3 2 1 0 


有 
CT CT CT CT CT CT CT CT CI CI CI CO CO 





Ox1 
Ox5 
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B. 存储 器 引用 : 








0 | om 
ET IE 


练习 题 6.17 这 个 问题 是 练习 题 6.13 一 6.16 的 一 种 道 过 程 ， 要 求 你 反 向 工作 ， 从 高 速 缓存 的 内 容 推出 会 在 
某 个 组 中 命中 的 地 址 。 在 这 种 情况 下 ， 组 3 包含 一 个 有 效 行 ， 标 记 为 0x32。 因 为 组 中 只 有 一 个 有 效 行 ， 四 
个 地 址 会 俞 中 。 这 些 地 址 的 二 进 制 形式 为 0 0110 0100 11xx。 因 此 ， 在 组 3 中 命中 的 四 个 十 六 进 制 地 
址 是 : 0x064C、0x064D、0x064E 和 0x064F。 

练习 题 6.18 A. 解决 这 个 问题 的 关键 是 想象 出 图 6-50 中 的 图 像 。 注 意 ， 每 个 高 速 缓存 行 只 包含 数组 的 一 
个 行 ， 高 速 组 存 正好 只 够 保存 一 个 数组 ， 而 且 对 于 所 有 的 i，src 和 dst 的 行 二 映射 到 同一 个 高 速 缓存 行 。 
因为 高 速 缓存 不 够 大 ， 不 足以 容纳 这 两 个 数组 ， 所 以 对 一 个 数组 的 引用 总 是 驱逐 出 另 一 个 数组 的 有 用 的 
行 。 例 如 ， 对 dst [0] [0] 写 会 驱逐 当 我 们 读 src[0] [0] 时 加 载 进 来 的 那 一 行 。 所 以 ， 当 我 们 接 下 来 读 
src[0] [1] 时 ， 我 们 会 有 一 个 不 命中 。 





图 6-50 练习 题 6.18 的 图 
B. 当 高 速 缓存 为 32 字 节 时 ， 它 足够 大 ， 能 容纳 这 两 个 数组 。 因 此 ， 所 有 的 不 命中 都 是 开始 时 的 冷 不 命中 。 


dst 数组 src 数组 
列 0 列 1 列 0 列 1 
行 0 | m | m_ 行 0 | m | m 
行 1] Lm | m 行 ] | m | nh | 
dst 数组 src 数组 
列 0 列 1 列 0 列 1 


fo Fm | 0 mn 
fl Cm in| 1 Ca 


练习 题 6.19 每 个 16 字 节 的 高 速 缓存 行 包含 着 两 个 连续 的 algae position 结构 。 每 个 循环 按照 存储 器 
顺序 访问 这 些 结构 ， 每 次 读 一 个 整数 元 素 。 所 以 ， 每 个 循环 的 模式 就 是 不 命中 、 命 中 、 不 命中 、 命 中 ， 依 
此 类 推 。 注 意 ， 对 于 这 个 问题 ， 我 们 不 必 实 际 列举 出 读 和 不 命中 的 总 数 ， 就 能 预测 出 不 命中 率 。 

A. 读 总 数 是 多 少 ? 512 个 读 。 

B. 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 256/512=50%。 
练习 题 6.20 ”对 这 个 问题 的 关键 是 注意 到 这 个 高 速 缓存 只 能 保存 数组 的 112。 所 以 ， 按 照 列 顺序 来 扫描 数 
组 的 第 二 部 分 会 驱逐 扫描 第 一 部 分 时 加 载 进来 的 那些 行 。 例 如 ， 读 grid[16] [0] 的 第 一 个 元 素 会 驱逐 当 
我 们 读 griaq[0] [0] 的 元 素 时 加 载 进 来 的 那 一 行 。 这 一 行 也 包含 grid[0] [1] 。 所 以 ， 当 我 们 开始 扫描 
下 一 列 时 ， 对 grid[0] [1] 第 一 个 元 素 的 引用 会 不 命中 。 

A. 读 总 数 是 多 少 ? 512 个 读 。 
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B. 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 256/512=50%。 

D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 如 果 高 速 缓存 有 现在 的 两 倍 大 ， 那 么 它 能 够 保 
存 整 个 grid 数组 。 所 有 的 不 命中 都 会 是 开始 时 的 冷 不 命中 ， 而 不 命中 率 会 是 1/4=25%。 
练习 题 6.21 这 个 循环 有 很 好 的 步 长 为 1 的 引用 模式 ， 因 此 所 有 的 不 命中 都 是 最 开始 时 的 冷 不 命中 。 

A. 读 总 数 是 多 少 ? 512 个 读 。 

B. 缓存 不 命中 的 读 总 数 是 多 少 ? 128 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 128/512=25%。 

D. 如 果 高 速 组 存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 无 论 高 速 缓存 的 大 小 增加 多 少 ， 都 不 会 改变 不 
命中 率 ， 因 为 冷 不 命中 是 不 可 避免 的 。 
练习 题 6.22 从 Ll 的 吞吐 量 峰 值 是 大 约 6500 MB/8， 时 钟 频率 是 2670 MHz， 而 每 次 读 访问 都 是 以 8 字 
节 double 类 型 为 单位 的 。 所 以 ， 从 这 张 图 中 我 们 可 以 估计 出 在 这 人 台 机 器 上 从 I1 访问 一 个 字 需 要 大 约 
2670/6500X 8=3.2=~4 周期。 : 


| 第 二 部 分 


Computer Systems : A Programmer s Perspective, 2E 


在 系统 上 运 行程 序 


继续 我 们 对 计算 机 系统 的 探索 ， 进 一 步 来 看 看 构建 和 运行 应 用 程序 的 
系统 软件 。 链 接 器 把 程序 的 各 个 部 分 合并 成 一 个 文件 ， 处 理 器 可 以 将 这 个 
文件 加 载 到 存储 器 ， 并 且 执行 它 。 现 代 操 作 系统 与 硬件 合作 ， 为 每 个 程序 
提供 一 种 幻象 ， 好 像 这 个 程序 是 在 独占 地 使 用 处 理 器 和 主 存 ， 而 实际 上 ， 
在 任何 时 刻 ， 系 统 上 都 有 多 个 程序 在 运行 。 

在 本 书 的 第 一 部 分 ， 你 很 好 地 理解 了 程序 和 硬件 之 间 的 交互 关系 。 本 
书 的 第 二 部 分 将 拓宽 你 对 系统 的 了 解 ， 使 你 牢固 地 掌握 程序 和 操作 系统 之 
间 的 交互 关系 。 你 将 学 习 到 如 何 使 用 操作 系统 提供 的 服务 来 构建 系统 级 程 
序 ， 例 如 Unix 外 壳 和 动态 存储 器 分 配 包 。 
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旗 接 





链接 (linking) 是 将 各 种 代码 和 数据 部 分 收集 起 来 并 组 合成 为 一 个 单一 文件 的 过 程 ， 这 
个 文件 可 被 加 载 ( 或 被 拷贝 ) 到 存储 器 并 执行 。 链 接 可 以 执行 于 编译 时 《compile time)， 也 就 
是 在 源 代码 被 翻译 成 机 器 代码 时 ; 也 可 以 执行 于 加 载 时 load time)， 也 就 是 在 程序 被 加 载 器 
(loader) 加 载 到 存储 器 并 执行 时 ; 甚至 执行 于 运行 时 (run time)， 由 应 用 程序 来 执行 。 在 早期 
的 计算 机 系统 中 ， 链 接 是 手动 执行 的 。 在 现代 系统 中 ， 链接 是 由 叫做 链接 器 (linker〉 的 程序 自 
动 执 行 的 。 
链接 器 在 软件 开发 中 扮演 着 一 个 关键 的 角色 ， 因 为 它们 使 得 分 离 编译 (separate compilation ) 
成 为 可 能 。 我 们 不 用 将 一 个 大 型 的 应 用 程序 组 织 为 一 个 巨大 的 源 文件 ， 而 是 可 以 把 它 分解 为 更 
小 、 更 好 管理 的 模块 ， 可 以 独立 地 修改 和 编译 这 些 模块 。 当 我 们 改变 这 些 模块 中 的 一 个 时 ， 只 需 
简单 地 重新 编译 它 ， 并 重新 链接 应 用 ， 而 不 必 重 新 编译 其 他 文件 。 
链接 通常 是 由 链接 器 来 默默 地 处 理 的 ， 对 于 那些 在 编程 人 门 课堂 上 构造 小 程序 的 学 生 而 言 ， 
链接 不 是 一 个 重要 的 议题 。 那 为 什么 还 要 这 么 麻烦 地 学 习 关于 链接 的 知识 呢 ? 
。 理解 链接 器 将 帮助 你 构造 大 型 程序 。 构 造 大 型 程序 的 程序 员 经 常会 遇 到 由 于 缺少 模块 、 缺 
少 库 或 者 不 兼容 的 库 版 本 引起 的 链接 器 错误 。 除 非 你 理解 链接 器 是 如 何 解析 引用 、 什 么 是 
库 以 及 链接 器 是 如 何 使 用 库 来 解析 引用 的 ， 和 否则 这 类 错误 将 令 你 感到 迷惑 和 挫败 。 
。 理 解 链接 器 将 帮助 你 避免 一 些 危 险 的 编程 错误 。Unix 链接 器 解析 符号 引用 时 所 做 的 决定 可 
以 不 动 声色 地 影响 你 程序 的 正确 性 。 在 默认 情况 下 ， 错 误 地 定义 多 个 全 局 变量 的 程序 将 通 
过 链接 器 ， 而 不 产生 任何 警告 信息 。 由 此 得 到 的 程序 会 产生 令 人 迷惑 的 运行 时 行为 ， 而 且 
非常 难以 调试 。 我 们 将 向 你 展示 这 是 如 何 发 生 的， 以 及 该 如 何 避 免 它 。 
。 理 解 链接 将 帮助 你 理解 语言 的 作用 域 规则 是 如 何 实现 的 。 例 如 ， 全 局 和 局 部 变量 之 间 的 区 
别 是 什么 ? 当 你 定义 一 个 具有 static 属性 的 变量 或 者 函数 时 ， 到 底 实 际 意味 着 什么 ? 
。 理 解 链接 将 帮助 你 理解 其 他 重要 的 系统 概念 。 链 接 器 产生 的 可 执行 目标 文件 在 重要 的 系统 
功能 中 扮演 着 关键 角色 ， 比 如 加 载 和 运行 程序 、 虚 拟 存储 器 、 分 页 和 存储 器 映射 。 
* 理解 链接 将 使 你 能 够 利用 共享 库 。 多 年 以 来 ， 链 接 都 被 认为 是 相当 简单 和 无 趣 的 。 然 而 ， 
随 着 共享 库 和 动态 链接 在 现代 操作 系统 中 重要 性 的 日 益 加 强 ， 链 接 成 为 一 个 复杂 的 过 程 ， 
它 为 知识 丰富 的 程序 员 提 供 了 强大 的 能 力 。 比 如 ， 许 多 软件 产品 在 运行 时 使 用 共享 库 来 升 
级 压缩 包装 的 (shrink-wrapped) 二 进 制程 序 。 还 有 ， 大 多 数 Web 服务 器 都 依赖 于 共享 库 
的 动态 链接 来 提供 动态 内 容 。 
这 一 章 提供 了 关于 链接 各 个 方面 的 彻底 的 讨论 ， 从 传统 静态 链接 到 加 载 时 的 共享 库 的 动态 链 
接 ， 以 及 到 运行 时 的 共享 库 的 动态 链接 。 我 们 将 使 用 实际 示例 来 描述 基本 的 机 制 ， 而 且 我 们 将 识 
别 出 链接 问题 在 哪些 情况 下 会 影响 程序 的 性 能 和 正确 性 。 
为 了 使 描述 具体 和 可 理解 ， 我 们 的 讨论 是 基于 这 样 的 环境 : 一 个 运行 Linux 的 x86 系统 ， 使 
用 标准 的 ELF 目标 文件 格式 。 为 了 清楚 一 些 ， 我 们 的 讨论 会 集中 在 链接 32 位 代码 上 ， 这 个 比 链 
接 64 位 代码 容易 理解 一 些 。 然而 ， 无 论 是 什么 样 的 操作 系统 、 ISA 或 者 目标 文件 格式 ， 基 本 
的 链接 概念 是 通用 的 ， 认 识 到 这 一 点 是 很 重要 的 。 细 节 可 能 不 尽 相 同 ， 但 是 概念 是 相同 的 。 


加 你 可 以 在 x86-64 系统 上 用 gcc -m32 产生 32 位 代码 。 
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7.1 编译 器 驱动 程序 

考虑 图 7-1 中 的 C 语言 程序 。 它 包含 两 个 源 文 件 : main.c 和 swap.c。 函 数 main () 调用 
swap 交换 外 部 全 局 数组 buf 中 的 两 个 元 素 。 一 般 认为 ， 这 是 一 种 奇怪 的 交换 两 个 数字 的 方式 ， 
但 是 它 将 作为 贯穿 本 章 的 一 个 小 的 运行 示例 ， 来 帮助 我 们 说 明 关 于 链接 是 如 何 工作 的 一 些 重要 知 
识 点 。 


code/link/swap.c 
1 /* swap.c +*/ 
2 extern int buf [] ; 
3 
4 int *bufp0 = &buf [0]; 
code/link/main.c 5 int *bufpl; 
1 Ar main.c */ 6 
2 void swap(); 7 void swap() 
3 8 
4 int buf[2] = {1,，2}; 9 int temp ; 
5 10 
6 int main() 11 bufpi = &buf [1]; 
和 2 temp = *bufp0; 
8 swap(); 13 *bufpO = *bufpl; 
9 return 0; 14 *bufpl = temp; 
10 3} 15 
code/linkK/main.c code/linK/swap.c 
a) main.c b) swap.c 


图 7-1 示例 程序 1 : 这 个 示例 程序 由 两 个 源 文件 组 成 ，main.c 和 swap.c。main 函数 初始 化 一 个 
两 元 素 的 整数 数组 ， 然 后 调用 swap 函数 来 交换 这 一 对 数 


大 多 数 编译 系统 提供 编译 驱动 程序 (compiler driver)， 它 代表 用 户 在 需要 时 调用 语言 预 处 理 
器 、 编 译 器 、 汇 编 器 和 链接 器 。 比 如 ， 要 用 GNU 编译 系统 构造 示例 程序 ， 我 们 就 要 通过 在 外 过 
中 输入 下 列 命令 行 来 调用 GCC 驱动 程序 : : 


unix> gcc -02 -g -0 p main.c swap.c 


7-2 概括 了 驱动 程序 在 将 示例 程序 从 ASCII 码 源 文件 翻译 成 可 执行 目标 文件 时 的 行为 。 
(如 果 你 想 看 看 这 些 步骤 ， 用 -v 选项 来 运行 GCC。) 驱动 程序 首先 运行 C 预 处 理 器 (cpp)， 它 
将 C 源 程 序 main.c 翻译 成 一 个 ASCII 码 的 中 间 文 件 main.i: 


cpp [other arguments] main.c /tmp/main.i 

接 下 来 ， 驱 动 程序 运行 C 编译 器 (cc1)， 它 将 main.i 翻译 成 一 个 ASCI 汇编 语言 文件 
main.s。 

ccl /tmp/main.i main.c -02 [other arguments] -0 /tmp/main.s 


然后 ， 驱 动 程序 运行 汇编 器 〈as)， 它 将 main.s 翻译 成 一 个 可 重 定位 目 标 文件 (relocatable 


object file) main.o : 


as [other arguments] -o /tmp/main.o /tmp/main.s 


驱动 程序 经 过 相同 的 过 程 生成 swap.o。 最 后 ， 它 运行 链接 器 程序 1dq， 将 main.o 和 
swap.o 以 及 一 些 必 要 的 系统 目标 文件 组 合 起 来 ， 创 建 一 个 可 执行 目标 文件 (executable object 
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fle) P : 


ld -o P [system object files and args] /tmp/main.o /tmp/swap.o 


要 运行 可 执行 文件 p， 我 们 在 Unix 外 过 


main.c swap.c 源 文件 








的 命令 行 上 输入 它 的 名 字 : 
oi a 
(cpp, ccl, as) (cpp, ccl, as) 
外 壳 调用 操作 系统 中 一 个 叫做 加 载 器 的 函 
数 ， 它 拷贝 可 执行 文件 p 中 的 代码 和 数据 到 存 main.o swap.o 可 重 定位 目标 文件 
储 器 ， 然 后 将 控制 转移 到 这 个 程序 的 开头 。 
了 
7.2 FS 
静态 链接 ee 
像 Unix 1d 程序 这 样 的 静态 链接 器 (static 可 执行 目标 文件 
linker) 以 一 组 可 重 定位 目标 文件 和 命令 行 参 图 7-2 静态 链接 。 链 接 器 将 可 重 定位 目标 文件 组 合 
数 作为 输入 ， 生 成 一 个 完全 链接 的 可 以 加 载 和 起 来 ， 形 成 一 个 可 执行 目标 文件 


运行 的 可 执行 目标 文件 作为 输出 。 输 入 的 可 重 
定位 目标 文件 由 各 种 不 同 的 代码 和 数据 节 (section) 组 成 。 指 令 在 一 个 节 中 ， 初 始 化 的 全 局 变量 
在 另 一 个 节 中 ， 而 未 初始 化 的 变量 又 在 另外 一 个 节 中 。 

为 了 构造 可 执行 文件 ， 链 接 器 必须 完成 两 个 主要 任务 : 

。 符 号 解析 (symbol resolution)。 目 标 文件 定义 和 引用 符号 。 符号 解析 的 目的 是 将 每 个 符号 

引用 刚好 和 一 个 符号 定义 联系 起 来 。 

。 重 定位 (〈relocation)。 编 译 器 和 汇编 器 生成 从 地 址 0 开始 的 代码 和 数据 节 。 链 接 器 通过 把 

每 个 符号 定义 与 一 个 存储 器 位 置 联系 起 来 ， 人 使 得 它们 指 

向 这 个 存储 器 位 置 ， 从 而 重 定位 这 些 节 。 

接 下 来 的 内 容 将 更 加 详细 地 描述 这 些 任务 。 在 你 阅读 的 时 候 ， 要 记 住 关于 链接 器 的 一 些 基本 
事实 : 目标 文件 纯粹 是 字 节 块 的 集合 。 这 些 块 中 ， 有 些 包 含 程序 代码 ， 有 些 则 包含 程序 数据 ， 而 
其 他 的 则 包含 指导 链接 器 和 加 载 器 的 数据 结构 。 链 接 器 将 这 些 块 连接 起 来 ， 确 定 被 连接 块 的 运行 
时 位 置 ， 并 且 修 改 代码 和 数据 块 中 的 各 种 位 置 。 链 接 器 对 目标 机 器 了 解 甚 少 。 产 生 目 标 文 件 的 编 
译 器 和 汇编 器 已 经 完成 了 大 部 分 工作 。 


7.3 目标 文件 


目标 文件 有 三 种 形式 : 

“可 重 定位 目标 文件 。 包 含 二 进 制 代码 和 数据 ， 其 形式 可 以 在 编译 时 与 其 他 可 重 定位 目标 文 

件 合并 起 来 ， 创 建 一 个 可 执行 目标 文件 。 

* 可 执行 目标 文件 。 包 含 二 进 制 代 码 和 数据 ， 其 形式 可 以 被 直接 拷贝 到 存储 器 并 执行 。 

。 共 享 目标 文件 。 一 种 特殊 类 型 的 可 重 定位 目标 文件 ， 可 以 在 加 载 或 者 运行 时 被 动态 地 加 和 载 

到 存储 器 并 链接 。 

编译 器 和 汇编 器 生成 可 重 定位 目标 文件 (包括 共享 目标 文件 )。 链 接 器 生成 可 执行 目标 文件 。 
从 技术 上 来 说 ， 一 个 目标 模块 (object module) 就 是 一 个 字 节 序 列 ， 而 一 个 目标 文件 〈object 
file) 就 是 一 个 存放 在 磁盘 文件 中 的 目标 模块 。 不 过 ， 我 们 还 是 互 换 地 使 用 这 些 术语 。 

各 个 系统 之 间 ， 目 标 文件 格式 都 不 相同 。 从 贝尔 实验 室 诞 生 的 第 一 个 Unix 系统 使 用 的 是 
a.out 格式 〈 直 到 今天 ， 可 执行 文件 仍然 被 称 为 a.out 文件 )。System V Unix 的 早期 版 本 使 用 的 
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是 一 般 目 标 文 件 格 式 (Common Object File Format，COFF )。Windows NT 使 用 的 是 COFF 的 一 
个 变种 ， 叫 做 可 移植 可 执行 (Portable Executable，PE) 格式 。 现 代 Unix 系统 (如 Linux， 还 有 
System V Unix 后 来 的 版 本 ， 各 种 BSD Unix， 以 及 Sun Solaris) 使 用 的 是 Unix 可 执行 和 可 链接 
格式 (Executable and Linkable Format，ELF)。 尽 管 我 们 的 讨论 集中 在 ELF 上 ， 但 是 不 管 是 哪 种 
格式 ， 基 本 的 概念 是 相似 的 。 


7.4 可 重 定位 目标 文件 


图 7-3 展示 了 一 个 典型 的 ELF 可 重 定位 目标 文件 的 格式 。ELF 头 “ELF header) 以 一 个 16 
字 节 的 序列 开始 ， 这 个 序列 描述 了 生成 该 文件 的 系统 的 字 的 大 小 和 字 节 顺序 。ELF 头 剩 下 的 部 
分 包含 帮助 链接 器 语法 分 析 和 解释 目标 文件 的 信息 。 其 中 包括 ELF 头 的 大 小 、 目 标 文件 的 类 型 
(如 可 重 定位 、 可 执行 或 者 是 共享 的 )、 机 器 类 型 (如 IA32)、 节 头 部 表 〈section header table) 的 
文件 偏 移 ， 以 及 节 头 部 表 中 的 条 目 大 小 和 数量 。 不 同 节 的 位 置 和 大 小 是 由 节 头 部 表 描 述 的 ， 其 中 
目标 文件 中 每 个 节 都 有 一 个 固定 大 小 的 条 目 (entry)。 

夹 在 ELF 头 和 节 头 部 表 之 间 的 都 是 节 。 一 个 典型 的 





ELF 可 重 定位 目标 文件 包含 下 面 几 个 节 : ETF 头 
.text : 已 编译 程序 的 机 器 代码 。 
.rodata : 只 读数 据 ， 比 如 printf 语句 中 的 格式 串 
和 开关 语句 的 跳 转 表 (参见 练习 题 7.14)。 
.data : 已 初始 化 的 全 局 C 变 量 。 局 部 C 变 量 在 运 
行 时 保存 在 栈 中 ， 既 不 出 现在 .data 节 中 ， 也 不 出 现在 节 
.bss 节 中 。 
.bss : 未 初始 化 的 全 局 C 变量 。 在 目标 文件 中 这 个 节 
不 占据 实际 的 空间 ， 它 仅仅 是 一 个 占 位 符 。 目 标 文件 格式 
区 分 初始 化 和 未 初始 化 变量 是 为 了 空间 效率 : 在 目标 文件 
中 ， 未 初始 化 变量 不 需要 占据 任何 实际 的 磁盘 空间 。 文件 的 节 《 | 节 头 部 表 | 


-Symtab ; 一 个 符号 表 ， 它 存放 在 程序 中 定义 和 引用 ”向 7-3 典型 的 ELF 可 重 定位 目标 文件 
的 函数 和 全 局 变量 的 信息 。 一 些 程序 员 错 误 地 认为 必须 通 
过 -g 选项 来 编译 程序 才能 得 到 符号 表 信 息 。 实 际 上 ， 每 个 可 重 定 位 目标 文件 在 .symtab 中 都 
有 一 张 符号 表 。 然 而 ， 和 编译 器 中 的 符号 表 不 同 ，. symtab 符号 表 不 包含 局 部 变量 的 条 目 。 

.rel.text : 一 个 .text 节 中 位 置 的 列表 ， 当 链接 器 把 这 个 目标 文件 和 其 他 文件 结合 时 ， 
需要 修改 这 些 位 置 。 一 般 而 言 ， 任 何 调用 外 部 函数 或 者 引用 全 局 变量 的 指令 都 需要 修改 。 另 一 方 
面 ， 调 用 本 地 函数 的 指令 则 不 需要 修改 。 注 意 ， 可 执行 目标 文件 中 并 不 需要 重 定位 信息 ， 因 此 通 
常 省 略 ， 除 非 用 户 显 式 地 指示 链接 器 包含 这 些 信 息 。 

.rel.qata: 被 模块 引用 或 定义 的 任何 全 局 变量 的 重 定位 信息 。 一 般 而 言 ， 任 何 已 初始 化 
的 全 局 变量 ， 如 果 它 的 初始 值 是 一 个 全 局 变量 地 址 或 者 外 部 定义 函数 的 地 址 ， 都 需要 被 修改 。 

.debug : 一 个 调试 符号 表 ， 其 条 目 是 程序 中 定义 的 局 部 变量 和 类 型 定义 ， 程 序 中 定义 和 引 
用 的 全 局 变量 ， 以 及 原始 的 C 源 文件 。 只 有 以 -g 选项 调用 编译 驱动 程序 时 才 会 得 到 这 张 表 。 

.line ; 原始 C 源 程序 中 的 行 号 和 .text 节 中 机 器 指令 之 间 的 映射 。 只 有 以 -g 选项 调用 
编译 驱动 程序 时 才 会 得 到 这 张 表 。 

, “Strtab : 一 个 字符 串 表 ， 其 内 容 包括 .symtab 和 .debug 节 中 的 符号 表 ， 以 及 节 头 部 中 

的 节 名 字 。 字 符 串 表 就 是 以 null 结尾 的 字符 串 序列 。 


www.lopSage.com 
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为 什么 未 初始 化 的 数据 称 为 .bss ? 

用 术语 .bss 来 表示 未 初始 化 的 数据 是 很 普遍 的 。 它 起 始 于 IBM 704 汇编 语言 (大 约 在 
1957 年 ) 中 “ 块 存储 开始 ”(Block Storage Start) 指令 的 首 字母 缩写 ， 并 沿用 至 今 。 一 个 记 住 区 
别 .data 和 .bss 节 的 简单 方法 是 把 “bss” 看 成 是 “更 好 地 节省 空间 ”(Better Save Space) ! 


7.5 ”符号 和 符号 表 


每 个 可 重 定位 目标 模块 m 都 有 一 个 符号 表 ， 它 包含 m 所 定义 和 引用 的 符号 的 信息 。 在 链接 
器 的 上 下 文中 ， 有 三 种 不 同 的 符号 : 

* 由 m 定义 并 能 被 其 他 模块 引用 的 全 局 符号 。 全 局 链接 器 符 号 对 应 于 非 冯 坊 的 C 函数 以 及 被 

定义 为 不 带 C static 属性 的 全 局 变量 。 

。 由 其 他 模块 定义 并 被 模块 m 引用 的 人 金 局 符号 。 这 些 符号 称 为 外 部 符号 external)， 对 应 于 

定义 在 其 他 模块 中 的 C 函数 和 变量 。 

只 被 模块 m 定义 和 引用 的 本 地 符号 。 有 的 本 地 链接 器 符号 对 应 于 带 static 属性 的 C 郴 

数 和 全 局 变量 。 这 些 符号 在 模块 中 随处 可 见 ， 但 是 不 能 被 其 他 模块 引用 。 目 标 文件 中 对 

应 于 模块 m 的 节 和 相应 的 源 文件 的 名 字 也 能 获得 本 地 符号 。 

认识 到 本 地 链接 器 符号 和 本 地 程序 变量 的 不 同 是 很 重要 的 。. symtab 中 的 符号 表 不 包含 对 
应 于 本 地 非 静 态 程序 变量 的 任何 符号 。 这 些 符号 在 运行 时 在 栈 中 被 管理 ， 链 接 器 对 此 类 符号 不 感 
兴趣 。 

有 趣 的 是 ， 定 义 为 带 有 C static 属性 的 本 地 过 程 变量 是 不 在 栈 中 管理 的 。 相 反 ， 编 译 器 
在 .data 和 .bss 中 为 每 个 定义 分 配 空 间 ， 并 在 符号 表 中 创建 一 个 有 唯一 名 字 的 本 地 链接 器 符 
号 。 比 如 ， 假 设 在 同一 模块 中 的 两 个 函数 定义 了 一 个 静态 本 地 变量 x : 


int f() 

{ 
static int x = 0; 
return xX; 


} 
int g() 
{ 


static int x = 1; 
return XxX; 


} 


在 这 种 情况 中 ， 编 译 器 在 .data 中 为 两 个 整数 分 配 空 间 ， 并 引出 〈export) 两 个 唯一 的 本 
地 链接 器 符号 给 汇编 器 。 比 如 ， 它 可 以 用 x.1 表示 函数 £ 中 的 定义 ， 而 用 x.2 表示 函数 g 中 的 
定义 。 


给 C 语言 初学 者 : 利用 static 属性 隐藏 变量 和 函数 名 字 

C 程序 员 使 用 static 属性 在 模块 内 部 隐藏 变量 和 函数 声明 ， 就 像 你 在 Java 和 C++ 中 使 用 
public 和 private 声明 一 样 。C 源 代 码 文件 扮演 模块 的 角色 。 任 何 声明 带 有 static 属性 的 全 局 变 
量 或 者 函数 都 是 模块 私有 的 。 类 似 地 ， 任 何 声 明 为 不 带 static 属性 的 全 局 变量 和 函数 都 是 公 
共 的 ， 可 以 被 其 他 模块 访问 。 尽 可 能 用 static 属性 来 保护 你 的 变量 和 地 数 是 很 好 的 编程 习惯 。 


符号 表 是 由 汇编 器 构造 的 ， 使 用 编译 器 输出 到 汇编 语言 .s 文件 中 的 符号 。.symtab 中 


下 
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包含 ELF 符号 表 。 这 张 符号 表 包 含 一 个 条 目的 数组 。 图 7-4 展示 了 每 个 条 目的 格式 。 


code/link/elfstructs.c 

| typedef struct { 

2 int name; /* String table offset */ 

3 int value; /* Section offset, or VM address */ 

4 int size; /* Object size in bytes */ 

5 char type:4, /* Data, func, section, or src file name (4 bits). */ 

6 binding:4; /* Local or global (4 bits) */ 

7 char reserved; /* Unused */ 

8 char Section; /* Section header index, ABS, UNDEF, */ 

9 /* Or COMMON */ 

10  } Elf_Symbol; 
code/link/elfstrucis.c 


图 7-4 ELF 符号 表 条 目 。type 和 binding 都 是 4 位 的 


name 是 字符 串 表 中 的 字 节 偏 移 ， 指 向 符号 的 以 null 结尾 的 字符 串 名 字 。value 是 符号 的 地 
址 。 对 于 可 重 定位 的 模块 来 说 ，value 是 距 定义 目标 的 节 的 起 始 位 置 的 偏 移 。 对 于 可 执行 目标 
文件 来 说 ， 该 值 是 一 个 绝对 运行 时 地 址 。size 是 目标 的 大 小 (以 字 节 为 单位 )。type 通常 要 么 
是 数据 ， 要 么 是 函数 。 符 号 表 还 可 以 包含 各 个 节 的 条 目 ， 以 及 对 应 原始 源 文 件 的 路 径 名 的 条 目 。 
所 以 这 些 目标 的 类 型 也 有 所 不 同 。binding 字段 表示 符号 是 本 地 的 还 是 全 局 的 。 

每 个 符号 都 和 目标 文件 的 某 个 节 相 关联 ， 由 section 字段 表示 ， 该 字段 也 是 一 个 到 节 头 部 
表 的 索引 。 有 三 个 特殊 的 伪 节 (pseudo section)， 它 们 在 节 头 部 表 中 是 没有 条 目的 : ABS 代表 不 
该 被 重 定 位 的 符号 ; UNDEF 代表 未 定义 的 符号 ， 也 就 是 在 本 目标 模块 中 引用 ， 但 是 却 在 其 他 地 
方 定 义 的 符号 ; COMMON 表示 还 未 被 分 配 位 置 的 未 初始 化 的 数据 目标 。 对 于 COMMON 人 
value 字段 给 出 对 齐 要 求 ， 而 size 给 出 最 小 的 大 小 。 

比如 ， 下 面 是 main.o 的 符号 表 中 的 最 后 三 个 条 目 ， 通 过 GNU READELF 工具 显示 出 来 。 
开始 的 8 个 条 目 没 有 显示 出 来 ， 它 们 是 链接 器 内 部 使 用 的 本 地 符号 。 


Nunm : Value Size Type Blind Ot Ndx Name 
8 : 0 8 DBJECT GLOBAL 0 3 buf 
9: 0 17 FUNC GLOBAL 0 1 main 

10: 0 O NOTYPE GLOBAL 0 UND swap 


在 这 个 例子 中 ， 我 们 看 到 一 个 关于 全 局 符号 buf 定义 的 条 目 ， 它 是 一 个 位 于 .data 节 
中 偏 移 为 零 〈( 即 value) 处 的 8 字 节 目标 。 其 后 跟随 着 的 是 全 局 符号 main 的 定义 ， 它 是 一 
个 位 于 .text 节 中 偏 移 为 零 处 的 17 字 节 函数 。 最 后 一 个 条 目 来 自 对 外 部 符号 swap 的 引用 。 
READELEF 用 一 个 整数 索引 来 标识 每 个 节 。Ndx=1 表示 .text 节 ， 而 Ndx=3 表示 .data 节 。 

相似 地 ， 下 面 是 swap .o 的 符号 表 条 目 : 


Num: Value Size Type Bind Ot Ndx Name 
8: 0 4 OBJECT GLOBAL 0 3 bufpo 
9: 0 O NOTYPE GLOBAL 0 UND buf 

10 : 0 39 FUNC GLOBAL 0 1 swap 
11: 4 4 OBJECT GLOBAL 0 COM bufpil 


首先 ， 我 们 看 到 一 个 关于 全 局 符号 bufp0 定义 的 条 目 ， 它 是 从 .data 中 偏 移 为 0 处 开始 
的 一 个 4 字 节 的 已 初始 化 目标 。 下 一 个 符号 来 自 bufpo 的 初始 化 代码 中 的 对 外 部 符号 puf 的 引 
用 。 后 面 紧 随 的 是 全 局 符号 swap， 它 是 一 个 位 于 .text 中 偏 移 为 零 处 的 39 字 节 的 函数 。 最 后 
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一 个 条 目 是 全 局 符号 bufpl1， 它 是 一 个 未 初始 化 的 4 字 节 数据 目标 (要 求 4 字 节 对 齐 )， 最 终 当 

这 个 模块 被 链接 时 它 将 作为 一 个 .bss 目标 分 配 。 

芝 练习 题 7.1 这 个 题目 是 关于 图 7-lb 中 的 swap.o 模块 。 对 于 每 个 在 swap.o 中 定义 或 引用 的 符号 ， 
请 指出 它 是 否 在 模块 swap.o 中 的 .symtab 节 中 有 一 个 符号 表 条 目 。 如 果 是 ， 请 指出 定义 该 符号 的 
模块 (swap.o 或 者 main.o)、 符 号 类 型 (本 地 、 全 局 或 者 外 部 ) 和 它 在 模块 中 占据 的 节 ( .text、 

.data 或 者 .bss )。 








_swap.o .symtab 条 目 ? | 符号 类 型 。 |， 在 车 模 决 中 定义 市 
i 
ER 
0 
| 
| 


7.6 符号 解析 


链接 器 解析 符号 引用 的 方法 是 将 每 个 引用 与 它 输入 的 可 重 定 位 目标 文件 的 符号 表 中 的 一 个 确 
定 的 符号 定义 联系 起 来 。 对 那些 和 引用 定义 在 相同 模块 中 的 本 地 符号 的 引用 ， 符 号 解析 是 非常 简 
单 明 了 的 。 编 译 器 只 人 允许 每 个 模块 中 每 个 本 地 符号 只 有 一 个 定义 。 编 译 器 还 确保 静态 本 地 变量 ， 
它们 也 会 有 本 地 链接 器 符号 ， 拥 有 唯一 的 名 字 。 

不 过 ， 对 全 局 符号 的 引用 解析 就 琼 手 得 多 。 当 编译 器 遇 到 一 个 不 是 在 当前 模块 中 定义 的 符号 
(变量 或 函数 名 ) 时 ， 它 会 假设 该 符号 是 在 其 他 某 个 模块 中 定义 的 ， 生 成 一 个 链接 器 符号 表 条 目 ， 
并 把 它 交 给 链接 器 处 理 。 如 果 链 接 器 在 它 的 任何 输入 模块 中 都 找 不 到 这 个 被 引用 的 符号 ， 它 就 输 
出 一 条 《通常 很 难 阅读 的 ) 错误 信息 并 终止 。 比 如 ， 如 果 我 们 试 着 在 一 台 Linux 机 器 上 编译 和 链 
接 下 面 的 源 文件 : 


void foo(void); 


foo() ; 


2 
3 int main() { 
4 
5 return 0; 


6 


那么 编译 器 会 没有 障碍 地 运行 ， 但 是 当 链 接 器 无 法 解析 对 foo 的 引用 时 ， 它 会 终止 : 


unix> gcc -Wall -02 -~o linkerror linkerror.c 
/tmp/ccSz5uti.o: In function “main' : 
/tmp/ccSz5uti.o(.text+0x7): undefined reference to ‘foo' 
collect2: ld returned 1 exit status 


对 全 局 符号 的 符号 解析 很 棘手 ， 还 因为 多 个 目标 文件 可 能 会 定义 相同 的 符号 。 在 这 种 情况 中 ， 
链接 器 必须 要 么 标志 一 个 错误 ， 要 么 以 某 种 方法 选 出 一 个 定义 并 抛弃 其 他 定义 。Unix 系统 采纳 的 
方法 涉及 编译 器 、 汇 编 器 和 链接 器 之 间 的 协作 ， 这 样 也 可 能 给 不 警觉 的 程序 员 带 来 一 些 麻 烦 。 


对 C++ 和 Java 中 链接 器 符号 的 毁坏 ‘mangling) 

C++ 和 Java 都 允许 重 载 方法 ， 这 些 方法 在 源 代码 中 有 相同 的 名 字 ， 却 有 不 同 的 参数 列表 。 
那么 链接 器 是 如 何 区 别 这 些 不 同 的 重 载 函数 之 间 的 差异 呢 ? C++ 和 Java 中 能 使 用 重 载 函数 ， 是 
因为 编译 器 将 每 个 唯一 的 方法 和 参数 列表 组 合 编码 成 一 个 对 链接 器 来 说 唯一 的 名 字 。 这 种 编码 过 
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程 叫 做 毁坏 (mangling)， 而 相反 的 过 程 叫 做 恢复 (demangling )。 

阐 运 的 是 ，C++ 和 Java 使 用 兼容 的 裔 坏 策 略 。 一 个 被 裔 坏 的 类 名 字 是 由 名 字 中 字符 的 整数 
数量 ， 后 面 跟 原始 名 字 组 成 的 。 比 如 ， 类 Foo 被 编码 成 3Foo。 方 法 被 编码 为 原始 方法 名 ， 后 
面 加 上 _， 加 上 被 毁坏 的 类 名 ， 再 加 上 每 个 参数 的 单个 字母 编码 。 比 如 ，Foo::bar(int, 
long) 被 编码 为 bar _3Fooi1l。 裔 坏 全 局 变量 和 模板 名 字 的 策略 是 相似 的 。 


7.6.1 ”链接 器 如 何 解析 多 重 定义 的 全 局 符号 

在 编译 时 ， 编 译 器 回 汇编 器 输出 每 个 全 局 符号 ， 或 者 是 强 〈strong) 或 者 是 弱 〈weak)， 而 
汇编 器 把 这 个 信息 隐 含 地 编码 在 可 重 定位 目标 文件 的 符号 表 里 。 函 数 和 已 初始 化 的 全 局 变量 是 强 
符号 ， 未 初始 化 的 全 局 变量 是 弱 符 号 。 对 于 图 7-1 中 的 示例 程序 ，buf、bufp0、main 和 swap 
是 强 符号 ; bufpl 是 弱 符 号 。 

根据 强 弱 符 号 的 定义 ，Unix 链接 器 使 用 下 面 的 规则 来 处 理 多 重 定义 的 符号 : 

。 规 则 1 : 不 允许 有 多 个 强 符号 。 

。 规 则 2 : 如 果 有 一 个 强 符号 和 多 个 弱 符 号 ， 那 么 选择 强 符号 。 

。 规则 3 : 如 果 有 多 个 弱 符 号 ， 那 么 从 这 些 弱 符号 中 任意 选择 一 个 。 

比如 ， 假 设 我 们 试图 编译 和 链接 下 面 两 个 C 模块 : 


1 /* 二 Oot1.C */ 1 /A* barl.ce */ 
2 int main() 2 int main() 

7 3 攻 

4 return 0; 4 return 0; 
$s 3} 5 } 


在 这 种 情况 下 ， 链 接 器 将 生成 一 条 错误 信息 ， 因 为 强 符号 main 被 定义 了 多 次 (规则 1) : 


Unix> gcc fool.c bari.c 

/tmp/cca015022.0: In function ‘main': 
/tmp/cca015022.0(.text+0x0): multiple definition of ‘main' 
/tmp/cca015021.0(.text+0x0): first defined here 


相似 地 ， 链 接 髓 对 于 下 面 的 模块 也 会 生成 一 条 错误 信息 ， 因 为 强 符号 x 被 定义 了 两 次 〈 规 
则 1): 


1 /* fo002,.c */ 
2 int x = 15213; 


/* bar2.c */ 


2 int x = 15213; 
3 3 
4 int main() 4 void f() 
5 1{ 5 并 
6 return 0; 6 } 
7 3} 


然而 ， 如 果 在 一 个 模块 里 x 未 被 初始 化 ， 那 么 链接 器 将 安静 地 选择 定义 在 另 一 个 模块 中 的 
强 符 号 (规则 2) : 


1 /* foo3.c */ 1 /* bar3.c */ 
2  #include <stdio.h>- 2 int x; 

3 void f(void); 3 

4 4 void f() 

5 int x = 15213; 5 { 

6 6 x = 15212; 
7 int main() 7 } 

8 
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9 f(); 

10 printf("x = %d\n", x); 
11 return 0; 

2 } 


在 运行 时 ， 函 数 f£ 将 x 的 值 由 15213 改 为 15212， 这 会 给 main 函数 的 作者 带 来 不 受 欢迎 的 
意外 ! 注意 ， 链 接 器 通常 不 会 表明 它 检测 到 多 个 x 的 定义 : 


unix> gcc -0 foobar3 foo3.c bar3.c 


unix> ./foobar3 


x = 15212 


如 果 x 有 两 个 弱 定 义 ， 也 会 发 生 相同 的 事情 (规则 3 ) : 


int xXx; 


WR HJ 人 NN 


{ 


0 


f(); 


二 i a ed 
i + ~ 


} 


/* foo4.c */ 
#include <stdio.h> 
void f(void); 


int main() 
X = 15213; 


printf("x = %d\n", x); 
return 0; 


1 
2 
3 
5 
6 
7 


/* bard.c */ 
int x; 


void f() 
{ 

x = 15212; 
} 


规则 2 和 规则 3 的 应 用 会 造成 一 些 不 易 察觉 的 运行 时 错误 ， 对 于 不 警惕 的 程序 员 来 说 ， 这 是 
很 难 理解 的 ， 尤 其 当 如 果 重 复 的 符号 定义 还 有 不 同 的 类 型 时 。 考 虑 下 面 这 个 例子 ， 其 中 x 在 一 
个 模块 中 定义 为 int， 而 在 另 一 个 模块 中 定义 为 double : 


1 /二 fooB.c */ 1 /* bar5.cC */ 
2 #incljude <stdio.h> 2 double 工 ; 

3 void f(void); 3、 

4 4 void f() 

5 int x = 15213; 5 二 

6 int y = 15212, 6 X = -0.0; 
7 7 小 

8 int main() 

9 +{ 

10 f(); 

11 printf("x = Ox%x y = Ox%x \n", 

12 X，Y) ; 

13 return 0 

14 } 


在 一 台 IA32/Linux 机 器 上 ，double 类 型 是 8 个 字 节 ， 而 int 类 型 是 4 个 字 节 。 因 此 ， 
bar5.c 的 第 6 行 中 的 赋值 x=-0.0 将 用 负 零 的 双 精 度 浮 点 表示 覆盖 存储 器 中 x 和 y 的 位 置 


(foo5.c 中 的 第 5 行 和 第 6 行 ) ! 


linux> gcc -0 foobar5 foog.c baro5.c 
linux> ./foobar5 


X = Ox0 y = 0x80000000 
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这 是 一 个 细微 而 令 人 讨厌 的 错误 ， 尤 其 是 因为 它 是 默默 发 生 的 ， 编 译 系统 不 会 给 出 警告 ， 而 
且 因 为 通常 要 在 程序 执行 很 久 以 后 才 表 现 出 来 ， 且 远离 错误 的 发 生地 。 在 一 个 拥有 几 百 个 模块 的 
大 型 系统 中 ， 这 种 类 型 的 错误 相当 难以 修正 ， 尤 其 因为 许多 程序 员 并 不 知道 链接 器 是 如 何 工作 
的 。 当 你 怀疑 有 此 类 错误 时 ， 用 像 GCC-fno-common 这 样 的 选项 调用 链接 器 ， 这 个 选项 会 告 
诉 链接 器 ， 在 遇 到 多 重 定 义 的 全 局 符号 时 ， 输 出 一 条 警告 信息 。 
攻 涪 练习 题 7.2 在 此 题 中 ，REF (x.i)-->DEF (x.k) 表示 链接 器 将 把 模块 i 中 对 符号 x 的 任意 引用 与 模 
块 k 中 x 的 定义 联系 起 来 。 对 于 下 面 的 每 个 示例 ， 用 这 种 表示 法 来 说 明 链 接 器 将 如 何 解 析 每 个 模块 中 
对 多 重 定义 符号 的 引用 。 如 果 有 一 个 链接 时 错误 〈 规 则 1)， 写 “ERROR”。 如 果 链 接 器 从 定义 中 任意 
”选择 一 个 (规则 3)， 则 写 “UNKNOWN”。 





A. /* Module 1 */ /* Module 2 */ 
int main() int main, 
. int :p2() 
} { 
} 


a 
ee 


(a) REF (main.1) --> DEF( 
(b) REF (main.2) --> DEF( 











B. /* Module 1 */ /jy Module 2 */ 
void main() int main=1; 
{ int p2() 
上 
(a) REF (main.1) --> DEF( 
(b) REF (main.2) --> DEF( ea) 
C. /* Module 1 */ /* Module 2 */ 
int Xx; double x=1.0; 
void main() int p2() 
} | | } 
(a) REF(x.1) -->DEF( . ) 
(b) REF(x.2) --> DEF( . .....) 
7.6.2 与 静态 库 链 接 


迄今 为 止 ， 我 们 都 是 假设 链接 器 读 取 一 组 可 重 定位 目标 文件 ， 并 把 它 们 链接 起 来 ， 成 为 一 个 


输出 的 可 执行 文件 。 实 际 上 ， 所 有 的 编译 系统 都 提供 一 种 机 制 ， 将 所 有 相关 的 目标 模块 打包 成 为 


一 个 单独 的 文件 ， ee (static library)， 它 可 以 用 做 链接 器 的 输入 。 当 链接 器 构造 一 个 输 
出 的 可 执行 文件 时 ， 它 只 拷贝 静态 库 里 被 应 用 程序 引用 的 目标 模块 。 

为 什么 系统 要 支持 库 的 概念 呢 以 ANSI C 为 例 ， 它 定义 了 一 组 广泛 的 标准 TO、 字符 串 操 
作 和 整数 数学 函数 ， 例 如 atoi、Printf、scanf、strcpy 和 Land。 它 们 在 Libc.a 库 中 ， 
对 每 个 C 程序 来 说 都 是 可 用 的 。ANSI C 还 在 1ibm. 站 如 
sin、cos 和 sqrt。 

让 我 们 来 看 看 如 果 不 使 用 静态 库 ， 编 译 器 开发 人 员 会 使 用 什么 方法 来 向 用 户 提供 这 些 函 数 。 
一 种 方法 是 让 编译 器 辨认 出 对 标准 函数 的 调用 ， 并 直接 生成 相应 的 代码 。Pascal (只 提供 了 一 小 
部 分 标准 函数 ) 采用 的 就 是 这 种 方法 ， 但 是 这 种 方法 对 C 而 言 是 不 合适 的 ， 因 为 C 标准 定义 了 
大 量 的 标准 函数 。 这 种 方法 将 给 编译 器 增加 显著 的 复杂 性 ， 而 且 每 次 添加 、 删 除 或 修改 一 个 标准 
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函数 时 ， 就 需要 一 个 新 的 编译 器 版 本 。 人 
因为 标准 函数 将 总 是 可 用 的 。 

种 方法 是 将 所 有 的 标准 C 函数 都 放 在 一 个 单独 的 可 重 定位 目标 模块 中 (如 1ibc.o 
中 )， 应 用 程序 员 可 以 把 这 个 模块 链接 到 他 们 的 可 执行 文件 中 : 


unix> gcc main.c /usr/1ib/libc.o 


这 种 方法 的 优点 是 它 将 编译 器 的 实现 与 标准 函数 的 实现 分 离开 来 ， 并 且 仍 然 对 程序 员 保持 适 
度 的 便利 。 然 而 ， 一 个 很 大 的 缺点 是 系统 中 每 个 可 执行 文件 现在 都 包含 着 一 份 标准 函数 集合 的 完 
全 拷贝 ， 这 对 磁盘 空间 是 很 大 的 浪费 。( 在 一 个 典型 的 系统 上 ，1ibc.a 大约 是 8MB， 而 1ibm. 
a 大 约 是 1MB.。) 更 糟糕 的 是 ， 每 个 正在 运行 的 程序 都 将 它 目 己 的 这 些 函 数 的 拷贝 放 在 存储 器 
中 ， 这 又 是 极度 浪费 存储 器 的 。 男 一 个 大 的 缺点 是 ， 对 任何 标准 函数 的 任何 改变 ， 无 论 多 么 小 的 
改变 ， 痢 要 求 库 的 开发 人 员 重 新 编译 整个 源 文件 ， 这 是 一 个 非常 耗 时 的 操作 ， 使 得 标准 函数 的 开 
发 和 维护 变 得 很 复杂 。 

我 们 可 以 通过 为 每 个 标准 函数 创建 一 个 独立 的 可 重 定位 文件 ， 把 它们 存放 在 一 个 为 大 家 都 知 
道 的 目录 中 来 解决 其 中 的 一 些 问题 。 然 而 ， 这 种 方法 要 求 应 用 程序 员 显 式 地 链接 合适 的 目标 模块 
到 它们 的 可 执行 文件 中 ， 这 是 一 个 容易 出 鲁 而 且 耗 时 的 过 程 : 


unix> gcc main.c /usr/1ib/printf.o /usr/lib/scanf.o ... 


静态 库 概 念 被 提出 来 ， 以 解决 这 些 不 同方 法 的 缺点 。 相 关 的 函数 可 以 被 编译 为 独立 的 目标 模 
块 ， 然 后 封装 成 一 个 单独 的 静态 库 文件 。 然 后 ， 应 用 程序 可 以 通过 在 命令 行 上 指定 单独 的 文件 名 
字 来 使 用 这 些 在 库 中 定义 的 函数 。 比 如 ， 使 用 标准 C 库 和 数学 库 中 函数 的 程序 可 以 用 形式 如 下 
的 命令 行 来 编译 和 链接 : 


unix> gcc main.c /usr/lib/libm.a /usr/1ib/libc.a 


在 链接 时 ， 链 接 器 将 只 拷贝 被 程序 引用 的 目标 模块 ， 这 就 减少 了 可 执行 文件 在 磁盘 和 存储 器 
中 的 大 小 。 另 一 方面 ， 应 用 程序 员 只 需要 包含 较 少 的 库 文件 的 名 字 〈 实 际 上 ，C 编译 器 驱动 程序 
总 是 传送 1ibc .a 给 链接 器 ， 所 以 前 面 提 到 的 对 1ibc .a 的 引用 是 不 必要 的 )。 

在 Unix 系统 中 ， 静 态 库 以 一 种 称 为 存档 (archive〉 的 特殊 文件 格式 存放 在 磁盘 中 。 存 档 文 
件 是 一 组 连接 起 来 的 可 重 定 位 目标 文件 的 集合 ， 有 一 个 头 部 用 来 描述 每 个 成 员 目 标 文件 的 大 小 和 
位 置 。 存 档 文 件 名 由 后 级 .a 标识 。 为 了 使 我 们 对 库 的 讨论 更 加 形象 具体 ， 假 设 我 们 想 在 一 个 叫 
i 


code/linK/addvec.c ———————————————— code/link/multvec.c 
void multvec(int *x, int *y, 


void addvec(int *x, int *y, 
int *z, int n) 


int *z, int n) 
{ { 


int i; int i; 


for (i = 0; i < n; i++) 
z[i] = x[i] * yl[i]; 


for (i = 0; i < ni i++); 
z[i] = x[i] + y[i] ; 


Gin UN 一 
‘OO NN 个 nw NN 


code/link/addvec.c : code/link/multvec.c 


a) addvec.o b) multvec.o 


”图 7-5 1ibvector.a 中 的 成 员 目 标 文件 
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为 了 创建 该 库 ， AR 工具 ， 具 体 如 下 : 


unix> gcc -c ave C multvec. C 
unix> ar rcs libvector.a addvec.o multvec.o 


为 了 使 用 这 个 库 ， 我 们 可 以 编写 一 个 应 用 ， 比 如 图 7-6 中 的 main2 .c， 它 调用 addvec 库 
例 程 。( 包 含 〈( 头 ) 文件 vector .h 定义 了 libvector .a 中 例 程 的 函数 原型 )。 


code/link/main2.c 
1 /* main2.c */ 
2 #include <stdio.h> 
3 #include "vector.h" 
4 
5 int x[2] = {1, 2}; 
6 int y[2] = {3, 4}; 
7 int z[2]; 
8 
9 int main() € 
10 +{ 
11 addvec(x, y, z, 2); 
12 printf("z = [Xd %dj\n", z[0j, z[1]); 
13 return 0; 
14 + 
code/linK/main2.c 


图 7-6 示例 程序 2 : 这 个 程序 调用 了 静态 Libvector.a 库 中 的 成 员 函 数 
为 了 创建 这 个 可 执行 文件 ， 我 们 要 编译 和 链接 输入 文件 main.o 和 1ibvector.a: 


unix> gcc -02 -c main2.c 
unix> gcc -static -0 p2 main2.0 ./libvector.a 


图 7-7 概括 了 链接 器 的 行为 。-static 参数 告诉 编译 器 驱动 程序 ， 链 接 器 应 该 构建 一 个 完 
全 链接 的 可 执行 目标 文件 ， 它 可 以 加 载 到 存储 器 并 运行 ， 在 加 载 时 无 需 更 进一步 的 链接 。 当 链接 
器 运行 时 ， 它 判定 addvec .o 定义 的 addvec 符号 是 被 main.o 引用 的 ， 所 以 它 拷贝 addvec. 
o 到 可 执行 文件 。 因 为 程序 不 引用 任何 由 multvec.o 定义 的 符号 ， 所 以 链接 器 就 不 会 拷贝 这 个 
模块 到 可 执行 文件 。 链 接 器 还 会 拷贝 1ibc .a 中 的 printf.o 模块 ， 以 及 许多 C 运行 时 系统 中 
的 其 他 模块 。 


源 文件 main2.c Vector .hh 


翻译 器 
(cpp, ccl, as) | libvector.a libc.a 静态 库 


printf .o 和 其 他 
printf .o 调 用 的 模块 






可 重 定位 目标 文件 ”maiR2.9 


链接 器 ( 1d ) 


p2 完全 链接 的 
可 执行 目标 文件 


图 7-7 与 静态 库 链 接 
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7.6.3 ”链接 器 如 何 使 用 静态 库 来 解析 引用 

虽然 静态 : 库 是 很 有 用 而 且 重要 的 工具 ， 但 是 它们 同时 也 是 程序 员 迷 三 的 源头 ， 因为 Unix 链 
接 器 使 用 它们 解析 外 部 引用 的 方式 是 令 人 困惑 的 。 在 符号 解析 的 阶段 ， 链 接 器 从 左 到 右 按照 它们 
在 编译 器 驱动 程序 命令 行 上 出 现 的 相同 顺序 来 扫描 可 重 定位 目标 文件 和 存档 文件 。( 驱动 程序 自 
动 将 命令 行 中 所 有 的 .c 文件 翻译 为 .o 文件 。) 在 这 次 扫描 中 ， 链 接 器 维持 一 个 可 重 定 位 目标 文 
件 的 集合 已 〈 这 个 集合 中 的 文件 会 被 合并 起 来 形成 可 执行 文件 )， 一 个 未 解析 的 符号 〈 即 引用 了 
但 是 尚未 定义 的 符号 ) 集合 U， 以 及 一 个 在 前 面 输入 文件 中 已 定义 的 符号 集合 D。 初 始 时 ，E、 
U 和 DD 痢 是 空 的 。 

* 对 于 命令 行 上 的 每 个 输入 文件 / ， 链 接 器 会 判断 /是 一 个 目标 文件 还 是 一 个 存档 文件 。 如 

果 f 是 一 个 目标 文件 ， 那 么 链接 器 把 f 添 加 到 E， 修 改 U 和 DD 来 反映 f 中 的 符号 定义 和 引 

用 ， 并 继续 下 一 个 输入 文件 。 / 

* 如 果 f 是 一 个 存档 文件 ， 那 么 链接 器 就 尝试 匹配 0 中 未 解析 的 符号 和 由 存档 文件 成 员 定义 

的 符号 。 如 果 茶 个 存档 文件 成 员 m， 定 义 了 一 个 符号 来 解析 U 中 的 一 个 引用 ， 那 么 就 将 m 

加 到 EE 中， 并 且 链 接 器 修改 U 和 DD 来 反映 m 中 的 符号 定义 和 引用 。 对 存档 文件 中 所 有 的 

成 员 目标 文件 都 反复 进行 这 个 过 程 ， 直 到 U 和 DD 都 不 再 发 生变 化 。 在 此 时 ， 任 何不 包含 在 

E 中 的 成 员 目 标 文件 都 简单 地 被 丢弃 ， 而 链接 器 将 继续 处 理 下 一 个 输入 文件 。 

* 如 果 当 链接 器 完成 对 命令 行 上 输入 文件 的 扫描 后 ， 忆 是非 空 的 ， 那 么 链接 器 就 会 输出 一 个 

错误 并 终止 。 否 则 ， 它 会 合并 和 重 定位 中 的 目标 文件 ， 从 而 构建 输出 的 可 执行 文件 。 

不 幸 的 是 ， 这 种 算法 会 导致 一 些 令 人 困扰 的 链接 时 错误 ， 因 为 命令 行 上 的 库 和 目标 文件 的 顺 
序 非常 重要 。 在 命令 行 中 ， 如 果 定 义 一 个 符号 的 库 出 现在 引用 这 个 符号 的 目标 文件 之 前 ， 那 么 引 
用 就 不 能 被 解析 ， 链 接 会 失败 。 比 如 ， 考 虑 下 面 的 命令 行 发 生 了 什么 : 


Unix> gcc -static ./libvector.a main2.c 
/tmp/cc9XH6Rp.o0: In function ‘main': 
/tmp/cc9XH6Rp.o( .text+0x18): undefined reference to “addvec' 


在 处 理 1ibvector.a 时, U 是 空 的 ， 所 以 没有 1ibvector.a 中 的 成 员 目 标 文件 会 添加 
到 到 中 。 因此 ， 对 addvec 的 引用 是 绝 不 会 被 解析 的 ， 所 以 链接 器 会 产生 一 条 错误 信息 并 终止。 

关于 库 的 一 般 准则 是 将 它们 放 在 命令 行 的 结尾 。 如 果 各 个 库 的 成 员 是 相互 独立 的 (也 就 是 
说 没有 成 员 引 用 另 一 个 成 员 定义 的 符号 )， 那 么 这 些 库 就 可 以 按照 任何 顺序 放置 在 命令 行 的 结 
尾 处 。 
另 一 方面 ， 如 果 库 不 是 相互 独立 的 ， 那么 它们 必须 排序 ， 使 得 对 于 每 个 被 存档 文件 的 成 员外 
部 引用 的 符号 s， 在 命令 行 中 至 少 有 一 个 s 的 定义 是 在 对 s 的 引用 之 后 的 。 比如 ， 假 设 foo.c 
调用 1ibx.a 和 1ibz.a 中 的 函数 ， 而 这 两 个 库 又 调用 1iby .a 中 的 函数 。 那 么 ， 在 命令 行 中 
lipbx.a 和 1ibz.a 必须 处 在 liby .a 之 前 : 


unix> gcc foo.c libx.a libz.a liby.a 


如 果 需 要 满足 依赖 需求 ， 可 以 在 命令 行 上 重复 库 。 比 如 ， 假 设 foo.c 调用 Libx.a 中 的 函 
数 ， 该 库 又 调用 1iby .a 中 的 函数 ， 0 那么 1ibx.a 必须 
在 命令 行 上 重复 出 现 : 


unix> gcc foo.c libx.a liby.a libx.a 


作为 另 一 种 方法 ， 我 们 可 以 将 1ibx .a 和 1iby .a 合并 成 一 个 单独 的 存档 文件 。 
医 缠 练习 题 7.3 a 和 b 表示 当 前 目录 中 的 目标 模块 或 者 静态 库 ， 而 a -~ b 表示 a 依赖 于 b， 也 就 是 说 b 
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定义 了 一 个 被 a 引用 的 符号 。 对 于 下 面 每 种 场景 ， 请 给 最 小 的 命令 行 《 也 就 是 一 个 合 有 最 少数 量 的 
ee 


A. p.o 一 Libx.a. 
B. p.o— libx.a ~—> liby.a. 
C. p.o 一 libx.a 一 liby.a 且 liby.a 一 libx.a 一 p.o. 


7.7 重 定 位 


一 日 链接 器 完成 了 符号 解析 这 一 步 ， 它 就 把 代码 中 的 每 个 符号 引用 和 确定 的 一 个 符号 定义 
( 即 它 的 一 个 输入 目标 模块 中 的 一 个 符号 表 条 目 ) 联系 起 来 。 在 此 时 ， 链接 器 就 知道 它 的 输入 目 
标 模块 中 的 代码 节 和 数据 节 的 确切 大 小 。 现在 就 可 以 开始 重 定 位 了 ， 在 这 个 步骤 中 ， 将 合并 输入 
模块 ， 并 为 每 个 符号 分 配 运 行 时 地 址 。 重 定位 由 两 步 组 成 : | 
。 重 定位 节 和 符号 定义 。 在 这 一 步 中 ， 链接 器 将 所 有 相同 类 型 的 节 合并 为 同一 类 型 的 新 的 聚 
合 节 。 例 如 ， 来 自 输 入 模块 的 .data 节 被 全 部 合并 成 一 个 节 ， 这 个 节 成 为 输出 的 可 执行 
目标 文件 的 .data 节 。 然 后 ， 链 接 器 将 运行 时 存储 器 地 址 赋 给 新 的 聚合 节 ， 赋 给 输入 模 
块 定义 的 每 个 节 ， 以 及 赋 给 输入 模块 定义 的 每 个 符号 。 当地 一 步 完成 时 ， 程序 中 的 每 个 指 
令 和 全 局 变量 都 有 唯一 的 运行 时 存储 器 地 址 了 。 i 

. 重 定位 节 中 的 符号 引用 。 在 这 一 步 中 ， 链 接 器 修改 代码 节 和 数据 节 中 对 每 个 符号 的 引 
用 ， 使 得 它们 指向 正确 的 运行 时 地 址 。 为 了 执行 这 一 步 ， 链 接 器 依赖 于 称 为 重 定位 条 目 
(relocation entry) 的 可 重 定位 目标 模块 中 的 数据 结构 ， 我 们 接 下 来 将 会 描述 这 种 数据 结构 。 

7.7.1 重 定位 条 目 | 

当 汇 编 器 生成 一 个 目标 模块 时 ， 它 并 不 知道 数据 和 代码 最 终 将 存放 在 存储 器 中 的 什么 位 置 。 
它 也 不 知道 这 个 模块 引用 的 任何 外 部 定义 的 函数 或 者 全 局 变量 的 位 置 。 所 以 ， 无 论 何 时 汇编 器 遇 
到 对 最 终 位 置 未 知 的 目标 引用 ， 它 就 会 生成 一 个 重 定位 条 目 ， 告 诉 链接 器 在 将 目标 文件 合并 成 可 
执行 文件 时 如 何 修 改 这 个 引用 。 代 码 的 重 定位 条 目 放 在 .rel .text bi . 驻 初始 化 数据 的 重 定位 
条 目 放 在 .rel.data 中 。 

图 7-8 展示 了 ELF 重 定位 条 目的 格式 。offset 是 需 亡 被 修改 的 引用 的 节 偏 移 。 symbol 标 
识 被 修改 的 引用 应 该 指向 的 符号 。type 告知 链接 器 如 何 修改 新 的 引用 。 i 全 


code/link/elfstructs.c 
typedef struct { , . 
int offset， /* Offset of the reference to relocate */ 


1 
2 
3 int symbol:24, /+* Symbol the reference should point to 
4. type:8; : /* Relocation type */ 让 : 
“和 3} Elf32 -Rel ; 
— Code/link/elfstructs.c 


图 7.8 ELF 重 定位 条 目 。 每 个 条 目 表示 一 个 必须 被 重 定位 的 引用 


ELF 定义 了 11 种 不 同 的 重 定位 类 型 ， 有 些 相当 隐秘 。 我 们 只 关心 其 中 两 种 最 基本 的 重 定位 
类 型 ， 四 
“R_386_PC32 : 重 定位 一 个 使 用 32 位 PC 相对 地 址 的 引用 。 回 顾 一 下 3.6.3 节 ， 一 个 PC 相 
对 地 址 就 是 距 程序 计数 器 〈PC) 的 当前 运行 时 值 的 偏 移 量 。 当 CPU 执行 一 条 使 用 PC 相对 
寻 址 的 指令 时 ， 它 就 将 在 指令 中 编码 的 32 位 值 上 加 上 PC 的 当前 运行 时 值 ， 得 到 有 效 地 址 
(如 call 指令 的 目标 )，PC 值 通 常 是 存储 器 中 下 一 条 指令 的 地 址 。 
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*。R_386_ 32 : 重 定 位 一 个 使 用 32 位 绝对 地 址 的 引用 。 通 过 绝对 寻 址 ，CPU 直接 使 用 在 指 
令 中 编码 的 32 位 值 作为 有 效 地 址 ， 不 需要 进一步 修改 。 

7.7.2 重 定位 符号 引用 

图 7-9 展示 了 链接 器 的 重 定 位 算法 的 伪 代 码 。 第 1 行 和 第 2 行 在 每 个 节 s 以 及 与 每 个 节 相 
关联 的 重 定位 条 目 r 上 迭代 执行 。 为 了 使 描述 具体 化 ， 假 设 每 个 节 s 是 一 个 字 节 数组 ， 每 个 重 
定位 条 目 工 是 一 个 类 型 为 EBLf32_Rel 的 结构 ， 如 图 7-8 中 的 定义 。 另 外 ， 还 假设 当 算法 运行 
时 ， 链 接 器 已 经 为 每 个 节 〈 用 RDDR (s) 表示 ) 和 每 个 符号 都 选择 了 运行 时 地 址 (用 ADDR (上 . 
symbol) 表示 )。 第 3 行 计 算 的 是 需要 被 重 定位 的 4 字 节 引用 的 数组 s 中 的 地 址 。 如 果 这 个 引 
用 使 用 的 是 PC 相对 寻 址 ， 那 么 它 就 用 第 5 ~ 9 行 来 重 定位 。 如 果 该 引用 使 用 的 是 绝对 寻 址 ， 它 
就 通过 第 11 ~ 13 行 来 重 定位 。 


foreach section 8 { 
foreach relocation entry r { 
refptr = 8 + r.offset; /* ptr to reference to be relocated */ 


/* Relocate a PC-relative reference */ 

if (r.type == R_386_PC32) { 
refaddr = ADDR(s) + r.offset; /* ref's run-time address */ 
*refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr); 


/* Relocate an absolute reference */ 
if (r.type == R_386_32) 
*refptr = (unsigned) (ADDR(r.symbol) + *refptr); 





”图 7-9” 重 定位 算法 


1. 重 定位 PC 相对 引用 

回想 我 们 在 图 7-1a 中 的 运行 示例 ，main.o 的 .text 节 中 的 main 程序 调用 swap 程序 ， 
该 程序 是 在 swap .o 中 定义 的 。 下 面 是 cal1 指令 的 反 汇编 列表 ， 是 由 GNU OBJDUMP 工具 生 
成 的 : 


6: e8 fc ff ff ff call 7 <main+Ox7> swapO); 
7: R_386_PC32 swap relocation entry 


从 这 个 列表 中 ， 我 们 看 到 call 指令 开始 于 节 偏 移 0x6 处 ， 由 1 个 字 节 的 操作 码 0xe8 和 
随后 的 32 位 引用 0xfffffffc 十进制 -4) 组 成 ， 它 是 以 小 端 法 字 节 顺序 存储 的 。 我 们 还 看 到 
下 一 行 显示 的 是 这 个 引用 的 重 定位 条 目 。( 回 想 一 下 ， 重 定位 条 目 和 指令 实际 上 是 存放 在 目标 文 
件 的 不 同 节 中 的 OBJDUMP 工具 为 了 方便 将 它们 显示 在 一 起 。〉 重 定位 条 目 + 由 3 个 字段 组 成 : 

r.offset = Ox7 


r.symbol = swap 
r.type = R_386_PC32 


这 些 字段 告诉 链接 器 修改 开始 于 偏 移 量 0x7 .处 的 32 位 PC 相对 引用 ， 使 得 在 运行 时 它 指向 
swap 程序 。 现 在 ， 假设 链接 锅 已 经 确定 : 


ADDR(s) = ADDR(.text) = Ox80483b4 
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ADDR(r .symbol) = ADDR(swap) = 0x80483c8 


使 用 图 7-9 中 的 算法 ， 链 接 器 首先 计算 出 引用 的 运行 时 地 址 (第 7 行 ) : 


refaddr = ADDR(s) + r.offset 
= Ox80483b4 + Ox7 
= Ox80483bb 


然后 ， 它 将 引用 从 当前 值 (-4) 修改 为 0x9， 使 得 它 在 运行 时 指向 swap 程序 (第 8 行 ) : 


*refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr) 
= (unsigned) (0x80483c8 + (-4) -~ Ox80483bb) 
= (unsigned) (0x9) 


在 得 到 的 可 执行 目标 文件 中 ，cal1 指令 有 如 下 的 重 定位 的 形式 : 


80483ba: ee8 09 00 00 00 call 80483c8 <swap> swap(); 


在 运行 时 ，cal1 指令 将 存放 在 地 址 0x80483ba 处 。 当 CPU 执行 call 指令 时 ，PC 的 值 
为 0x80483bf， 即 紧 随 在 call 指令 之 后 的 指令 的 地 址 。 为 了 执行 这 条 指令 ，CPU 执行 以 下 的 
步骤 : 


1. push PC onto stack 
2. PC <- PC + Ox9 = Ox80483bf + 0x9 = 0x80483c8 


因此 ， 要 执行 的 下 一 条 指令 就 是 swap 程序 的 第 一 条 指令 ， 这 当然 就 是 我 们 想 要 的 ! 

你 可 能 想 知道 为 什么 汇编 器 会 将 call 指令 中 的 引用 的 初始 值 设 置 为 -4。 汇 编 器 用 这 个 值 
作为 偏 移 量 ， 是 因为 PC 总 是 指向 当前 指令 的 下 一 条 指令 。 在 有 不 同 指令 大 小 和 编码 方式 的 不 同 
的 机 器 上 ， 该 机 器 的 汇编 器 会 使 用 不 同 的 偏 移 量 。 这 是 一 个 很 有 用 的 技巧 ， 它 允许 链接 器 透明 地 
重 定位 引用 ， 很 幸运 地 不 用 知道 某 一 台 机 器 的 指令 编码 。 

2. 重 定位 绝对 引用 

回想 图 7-1 中 我 们 的 示例 程序 ，swap .o 模块 将 全 局 指针 pufp0 初始 化 为 指向 全 局 数组 
buf 的 第 一 个 元 素 的 地 址 : 


int *bufpO = &buf [0] ; 


因为 bufp0 是 一 个 已 初始 化 的 数据 目标 ， 那么 它 将 被 存放 在 可 重 定位 目 标 模块 swap.o 
的 .data 节 中 。 因 为 它 被 初始 化 为 一 个 全 局 数组 的 地 址 ， 所 以 它 需 要 被 重 定 位 。 下 面 是 swap. 
o 中 .data 节 的 反 汇 编列 表 : 


00000000 <bufp0>: 
0 : 00 00 00 00 int *bufpO = &buf {0}; 
0: R_386_32 buf Relocation entry 


我 们 看 到 .data 节 包 含 一 个 32 位 引用 ，bufp0 指针 的 值 为 0x0。 重 定位 条 目 告 诉 链接 器 
这 是 一 个 32 位 绝对 引用 ， 开 始 于 偏 移 0 处 ， 必 须 重 定位 使 得 它 指向 符号 buf。 现 在 ， 假 设 链接 
器 已 经 确定 : 


ADDR(r .Symbol) = ADDR(buf) = 0x8049454 


链接 器 使 用 图 7-9 中 算法 的 第 13 行 修改 了 引用 : 


464 


*refptr = 
= (unsigned) (0x8049454 


804945c : 


划 二 闷 分 人 疾 厌 缮 上 运行 程序 


+ 0) 


= (unsigned) (0x8049454) 


在 得 到 的 可 执行 目标 文件 中 ， 引 用 有 下 面 的 重 定位 形式 : 


0804945c <bufp0>: 


54 94 04 08 


(unsigned) (ADDR(r.symbol) + *refptr) 


Relocaterd! 


总 而 言 之 ， 链 接 器 决定 在 运行 时 变量 bufp0 将 放置 在 存储 器 地 址 0x804945c 处 ， 并 且 被 初始 
化 为 0x8049454， 这 个 值 就 是 buf 数组 的 运行 时 地 址 。 
swap .o 模块 中 的 .text 节 包 含 5 个 绝对 引用 ， 都 以 相似 的 方式 进行 重 定 位 〈 人 参考 练习 题 
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LA 


080483c8 
”80483c8: 
80483c9: 
80483cf : 
80483d4: 
80483d6: 
80483dd: 
80483e0: 
80483e2: 
80483e4: 
80483e6: 
80483eb : 
80483ed: 
80483ee : 


08049454 
8049454: 


0804945c 
804945c : 


图 7-10 


080483b4 <main> : 
80483b4: 
80483b5: 
80483b7 : 
80483ba: 
80483bf : 
80483c1: 
80483c3: 
80483c4: 
80483c5: 
80483c6: 
80483c7: 


55 
89 e5 
83 ec 
e8 09 
31 coO 
89 ec 
5d 
c3 
90 
90 
90 


<swap>: 
55 

”8b 15 
al 58 
89 e5 
c7 05 
94.04 
89 ec 
8b 0a 
89 02 
al 48 
89 08 
5d 
c3 


<buf>: 
01 00 


.<buf pO>: 


54 94 


push 
mov 
08 sub 
00 00 00 call 
XOT 
mov . 
PopP 
ret 


Dop - 
nop . 


nop 


push 
mov 
mov 
mov 
movl 


5c 94 04 08 
94 04 08 


48 95 04 08 58 
08 . 
IOV 
mov 
mov 
moV 
moV . 
PoP 
”Tet 


95 04 08 


Xebp 

Xesp ,%ebp 

$0x8, hesp | 
80483c8 <svap> 
heaXx ,Xeax 

%ebp ,yesp 

ebp 


%ebp ' 
0x804945c ,Yedax 


. Ox8049458 , peax 


yesp ,Xebp 
$0x8049458 , 0x8049548 


%ebp ,%esp 
(Xedx) ,%ecx 
%eax, (Xedx) 
0x8049548， heax 


. Whecx, (Xeax)” 
“ebp . 


a) 已 重 定位 的 .text 节 


00 00 02 00 00 00 


04 08 


Relocated! 


b) 已 重 定位 的 .data 节 
可 执行 文件 p 的 已 重 定 位 的 .text 和 . .data 节 。 原 始 的 C 代码 在 图 7-1 和 


7-10 展示 了 最 终 的 可 执行 目标 文件 中 被 重 定位 的 .text 和 .data 节 。 


code/link/p-exe.d 


swap(); 


Get *bufp0 . 
Get buf[1] 


bufpi = &buf[1] 


Get *bufpi 


code/link/p-exe.d 


code/link/pdata-exe.d 


code/link/pdata-exe.d 
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攻 开 练习 题 7.4 本题 是 关于 图 7-10 中 的 重 定位 程序 的 。 
A. 第 5 行 中 对 swap 的 重 定位 引用 的 十 六 进 制 地 址 是 多 少 ? 
B. 第 5 行 中 对 swap 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ? 
C .假设 因为 某 种 原因 ， 链 接 器 决定 将 .text 节 放 在 0x80483b8 处 而 不 是 0x80483b4 处 。 那 么 在 
这 种 情况 下 ， 第 5 行 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ? 


7.8 ”可 执行 目标 文件 


我 们 已 经 看 到 链接 器 是 如 何 将 多 个 目标 模块 合并 成 一 个 可 执行 目标 文件 的 。 我 们 的 C 程序 ， 
开始 时 是 一 组 ASCI 文本 文件 ， 已 经 被 转化 为 一 个 二 进 制 文件 ， 且 这 个 二 进 制 文件 包含 加 载 程序 
到 存储 器 并 运行 它 所 需 的 所 有 信息 。 图 7-11 概括 了 一 个 典型 的 ELF 可 执行 文件 中 的 各 类 信息 。 


节 映射 到 运行 
时 存储 器 自 只 读 存储 器 段 (代码 段 ) 













.bss 
a 
| 
3 


图 7-11 典型 的 ELF 可 执行 目标 文件 


可 执行 目标 文件 的 格式 类 似 于 可 重 定位 目标 文件 的 格式 。ELF 头 部 描述 文件 的 总 体格 式 。 它 
还 包括 程序 的 入 口 点 (entry point)， 也 就 是 当 程序 运行 时 要 执行 的 第 一 条 指令 的 地 址 。 .text、 
.rodata 和 .data 节 和 可 重 定位 目标 文件 中 的 节 是 相似 的 ， 除 了 这 些 节 已 经 被 重 定位 到 它们 最 
终 的 运行 时 存储 器 地 址 以 外 。 . init 节 定 义 了 一 个 小 函数 ， 叫 做 _init， 程 序 的 初始 化 代码 会 
调用 它 。 因 为 可 执行 文件 是 完全 链接 的 《已 被 重 定位 了 )， 所 以 它 不 再 需要 . rel 节 。 

ELF 可 执行 文件 被 设计 得 很 容易 加 载 到 存储 器 ， 可 执行 文件 的 连续 的 片 〈chunk) 被 映射 到 
连续 的 存储 器 段 。 段 头 部 表 〈segment header table) 描述 了 这 种 映射 关系 。 图 7-12 展示 了 可 执行 
文件 P 的 段 头 部 表 ， 是 由 OBJDUMP 显示 的 。 : 


| 读 / 写 存储 器 段 (数据 段 ) 


不 加 载 到 存储 器 的 符号 表 


试 信息 


| 
文件 节 


code/link/p-exe.d 


Read~only code segnent 


1 LOAD off Ox00000000 vaddr Ox08048000 paddr 0x08048000 align 2**12 
2 filesz Ox00000448 memsz Ox00000448 flags r-x 


Read/write data segment 


3 LOAD off Ox00000448 vaddr Ox08049448 paddr Ox08049448 align 2**12 
filesz Ox000000e8 memsz 0x00000104 flags rw- 


code/link/p-exe.d 
图 7-12 示例 可 执行 文件 p 的 段 头 部 表 


” 注 ; off ; 文件 偏 移 ; vaddr/paddr : 虚拟 /物理 地 址 ; align : 段 对 齐 ;filesz: 目标 文件 中 的 段 大 小 ; 
memsz : 存储 器 中 的 段 大 小 ; flags : 运行 时 许可 。 


466 甸 二 部 分 闪 夭 统 上 运 开 程序 


从 段 头 部 表 中 ， 我 们 会 看 到 根据 可 执行 目标 文件 的 内 容 初 始 化 两 个 存储 器 段 。 第 1 行 和 第 2 
行 告诉 我 们 第 一 个 段 《 代 码 段 对 齐 到 一 个 4KB (2”) 的 边界 ， 有 读 / 执行 许可 ， 开 始 于 存储 器 
地 址 0x08048000 处 ， 总 共 的 存储 器 大 小 是 0x448 字 节 ， 并 且 被 初始 化 为 可 执行 目标 文件 的 头 
0x448 个 字 节 ， 其 中 包括 ELF 头 部 、 段 头 部 表 以 及 .init、.text 和 .rodata 节 。 

第 3 行 和 第 4 行 告诉 我 们 第 二 个 段 〈 数 据 段 ) 被 对 齐 到 一 个 4KB 的 边界 ， 有 读 / 写 许可 ， 
开始 于 存储 器 地 址 0x08049448 处 ， 总 的 存储 器 大 小 为 0x104 字 节 ， 并 用 从 文件 偏 移 0x448 
处 开始 的 0xe8 个 字 节 初始 化 ， 在 这 种 情况 下 ， 偏 移 0x448 处 正 是 . data 节 的 开始 。 该 段 中 剩 
下 的 字 节 对 应 于 运行 时 将 被 初始 化 为 零 的 .bss 数据 。 


7.9 加 载 可 执行 目标 文件 
要 运行 可 执行 目标 文件 p， 可 以 在 Unix 外 壳 的 命令 行 中 输入 它 的 名 字 : 
unix> ./p 


因为 P 不 是 一 个 内 置 的 外 碗 命令 ， 所 以 外 这 会 认为 p 是 一 个 可 执行 目标 文件 ， 通 过 调用 某 个 驻 
留 在 存储 器 中 称 为 加 载 器 (loader) 的 操作 系统 代码 来 运行 它 。 任 何 Unix 程序 都 可 以 通过 调 
用 execve 函数 来 调用 加 载 器 ， 我 们 将 在 8.4.5 节 中 详细 地 描述 这 个 函数 。 加 载 器 将 可 执行 目标 
文件 中 的 代码 和 数据 从 磁盘 拷贝 到 存储 器 中 ， 然 后 通过 跳 转 到 程序 的 第 一 条 指令 或 入 口 点 (entry 
point) 来 运行 该 程序 。 这 个 将 程序 拷贝 到 存储 器 并 运行 的 过 程 叫做 加 载 (loading )。 

每 个 Unix 程序 都 有 一 个 运行 时 存储 器 映像 ， 类 似 于 图 7-13 中 所 示 的 那样 。 在 32 位 Linux 
pt 代码 段 总 是 从 地 址 0x08048000 处 开始 。 数 据 段 是 在 接 下 来 的 下 一 个 4KB 对 齐 的 地 址 

处 。 运 行 时 推 在读 / 写 段 之 后 接 下 来 的 第 一 个 4KB 对 齐 的 地 址 处 ， 并 通过 调用 malloc 库 往 上 

增长 。( 我 们 将 在 9.9 节 中 详细 描述 malloc 和 堆 。) 还 有 一 个 段 是 为 共享 库 保留 的 。 用 户 栈 总 是 
从 最 大 的 合法 用 户 地 址 开始 ， 向 下 增长 的 (向 低 存储 器 地 址 方向 增长 )。 从 栈 的 上 部 开始 的 段 是 
为 操作 系统 驻 留 存储 器 的 部 分 (也 就 是 内 核 ) 的 代码 和 数据 保留 的 。 

当 加 载 器 运行 时 ， 它 创建 如 图 7-13 所 示 的 存储 器 映像 。 在 可 执行 文件 中 段 头 部 表 的 指导 下 ， 
加 载 器 将 可 执行 文件 的 相关 内 容 拷 
贝 到 代码 和 数据 段 。 接 下 来 ， 加 载 
器 跳 转 到 程序 的 入 口 点 ， 也 就 是 符 
号 _start 的 地 址 。 在 _start 地 
址 处 的 启动 代码 (startup code) 是 在 
目标 文件 ctrl.o 中 定义 的 ， 对 所 
有 的 C 程序 都 是 一 样 的 。 图 7-14 展 
示 了 启动 代码 中 具体 的 调用 序列 。 在 
从 .text 和 .init 节 中 调用 了 初 
始 化 例 程 后 ， 启 动 代码 调用 atexit 
例 程 ， 这 个 程序 附加 了 一 系列 在 应 
用 程序 正常 中 止 时 应 该 调用 的 程序 。 
exit 函数 运行 atexit 注 册 的 本 
数 ， 然 后 通过 调用 _exit 将 控制 返 
回 给 操作 系统 。 接 着 ， 启 动 代码 调用 “5 
应 用 程序 的 main 程序， 它 会 开始 执 0 
行 我 们 的 C 代码。 在 应 用 程序 返回 图 7-13 Linux 运行 时 存储 器 映像 


对 用 户 代 码 不 可 
见 的 存储 器 


从 可 执行 文件 中 加 载 
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之 后 ， 启 动 代码 调用 _exit 程序 ， 它 将 控制 返回 给 操作 系统 。 


Ox080480c0 <_start>: /* Entry point in .text */ 
call __Libc_init_firest /* Startup code in .text */ 
call _init /* Startup code in .init */ 


call atexit /* Startup code in .text */ 
call main /* Application main routine */ 
call _exit /+ Returns control to OS */ 

/* Control never reaches here */ 





图 7-14 每 个 C 程 序 中 启动 例 程 crt1.o 的 伪 代 码 
注 : 没有 显示 将 每 个 函数 的 参数 压 入 栈 中 的 代码 


加 载 器 实际 上 是 如 何 工 作 的 ? 

我 们 对 于 加 载 的 描述 从 概念 上 来 说 是 准确 的 ， 但 也 不 完全 准确 。 为 了 理解 加 载 实 际 上 是 如 何 工 
作 的 ， 你 必须 理解 进程 、 虚 拟 存 储 器 和 存储 器 映射 的 概念 ， 这 些 我 们 还 没有 加 以 讨论 。 在 后 面 的 第 
8 章 和 第 9 章 中 遇 到 这 些 概念 时 ， 我 们 将 重新 回 到 加 载 的 问题 上 ， 并 逐渐 向 你 揭 开 它 的 神秘 面纱 。 

对 于 不 够 有 耐心 的 读者 ， 下 面 是 关于 加 载 实际 上 是 如 何 工 作 的 一 个 概述 : Unix 系统 中 的 每 
个 程序 都 运行 在 一 个 进程 上 下 文中 ， 有 自己 的 虚拟 地 址 空间 。 当 外 过 运行 一 个 程序 时 ， 父 外 壳 进 
程 生 成 一 个 子 进 程 ， 它 是 父 进 程 的 一 个 复制 品 。 子 进程 通过 execve 系统 调用 启动 加 载 器 。 加 
载 器 删除 子 进程 现 有 的 虚拟 存储 器 段 ， 并 创建 一 组 新 的 代码 、 数 据 、 堆 和 栈 段 。 新 的 栈 和 堆 段 被 
初始 化 为 震 。 通 过 将 虚拟 地 址 空间 中 的 页 映射 到 可 执行 文件 的 页 大 小 的 片 (chunk)， 新 的 代码 和 
数据 段 被 初始 化 为 可 执行 文件 的 内 容 。 最 后 ， 加 载 器 跳 转 到 start 地 址 ， 它 最 终 会 调用 应 用 
程序 的 main 函数 。 除 了 一 些 头 部 信息 ， 在 加 载 过 程 中 没有 任何 从 磁盘 到 存储 器 的 数据 描 贝 。 直 
到 CPU 引用 一 个 被 映射 的 虚拟 页 才 会 进行 拷贝 ， 此 时 ， 操 作 系 统 利 用 它 的 页 面 调度 机 制 自动 将 
页 面 从 磁 瘟 传送 到 存储 器 。 





| 练习 题 7.5 A. 为 什么 每 个 C 程序 都 需要 一 个 叫做 main 的 函数 ? 
B. 你 想 过 为 什么 C 的 main 函数 可 以 通过 调用 exit 或 者 执行 一 条 return 语句 来 结束 ， 或 者 两 者 都 
不 做 ， 而 程序 仍然 可 以 正确 终止 吗 ? 请 解释 。 


7.10 动态 链接 共享 库 


我 们 在 7.6.2 节 中 研究 的 静态 库 解 决 了 许多 关于 如 何 让 大 量 相关 函数 对 应 用 程序 可 用 的 问题 。 
然而 ， 静 态 库 仍然 有 一 些 明 显 的 人 缺点 。 静态 库 和 所 有 的 软件 一 样 ， 需 要 定期 维护 和 更 新 。 如 果 应 
用 程序 员 想 要 使 用 一 个 库 的 最 新 版 本 ， 他 们 必须 以 某 种 方式 了 解 到 该 库 的 更 新 情况 ， 然 后 显 式 地 
将 他 们 的 程序 与 更 新 了 的 库 重 新 链接 。 

另 一 个 问题 是 几乎 每 个 C 程序 都 使 用 标准 IO 函数 ， 如 Printf 和 scanf。 在 运行 时 ， 这 
些 沽 数 的 代码 会 被 复制 到 每 个 运行 进程 的 文本 段 中 。 在 一 个 运行 50 ~ 100 个 进程 的 典型 系统 上 ， 
这 将 是 对 稀缺 的 存储 器 系统 资源 的 极 大 浪费 。( 存 储 器 的 一 个 有 趣 属 性 就 是 不 论 系统 中 有 多 大 的 
存储 器 ， 它 总 是 一 种 稀缺 资源 。 磁 盘 空间 和 厨房 的 垃圾 桶 同样 有 这 种 属性 。) 

共享 库 〈shared library) 是 致力 于 解决 静态 库 缺 陷 的 一 个 现代 创新 产物 。 共 享 库 是 一 个 目标 模 
块 ， 在 运行 时 ， 可 以 加 载 到 任意 的 存储 器 地 址 ， 并 和 一 个 在 存储 器 中 的 程序 链接 起 来 。 这 个 过 程 
称 为 动态 链接 〈dynamic linking)， 是 由 一 个 叫做 动态 链接 器 (dynamic linker) 的 程序 来 执行 的 。 

共享 库 也 称 为 共享 目标 〈shared object)， 在 Unix 系统 中 通常 用 . so 后 缀 来 表示 。 微 软 的 操 
作 系 统 大 量 地 利用 了 共享 库 ， 它 们 称 为 DLL (动态 链接 库 )。 
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共享 库 是 以 两 种 不 同 的 方式 来 “共享 ” 的。 首先 ， 在 任何 给 定 的 文件 系统 中 ， 对 于 一 个 库 只 
有 一 个 .so 文件 。 所 有 引用 该 库 的 可 执行 目标 文件 共享 这 个 .so 文件 中 的 代码 和 数据 ， 而 不 是 
像 静 态 库 的 内 容 那 样 被 拷贝 和 退 入 到 引用 它们 的 可 执行 的 文件 中 。 其 次 ， 在 存储 器 中 ， 一 个 共 亨 
库 的 .text 节 的 一 个 副本 可 以 被 不 同 的 正在 运行 的 进程 共享 。 在 第 10 章 我 们 学 习 虚 拟 存储 器 时 
将 更 加 详细 地 讨论 这 个 问题 。 

图 7-15 概括 了 图 7-6 中 示例 程序 的 动态 链接 过 程 。 为 了 构造 图 7-5 中 向 量 运 算 示 例 程序 的 共 
享 库 1ibvector .so， 我 们 会 调用 编译 器 ， 给 链接 器 如 下 特殊 指令 : 


unix> gcc -shared -fPIC -~o libvector.so addvec.c multvec.c 


-fPIC 选项 指示 编译 器 生成 与 位 置 main2.c vector.h 


无 关 的 代码 (下 一 节 将 详细 讨论 这 个 问 
ai 
(cpp,ccl1,as) 





题 )。-shared 选项 指示 链接 器 创建 一 个 


共享 的 目标 文件 。 有 

它 链接 到 图 7-6 的 示例 程序 中 : | 符号 表 信息 
unix> gcc -0 p2 main2.c ./libvector.so z 

这 样 就 创建 了 一 个 可 执行 目标 文件 p2， 部 分 链 恋 的 可 p2 

而 此 文件 的 形式 使 得 它 在 运行 时 可 以 和 oe 


libvector .so 链接。 基本 的 思路 是 当 创 加 载 器 
建 可 执行 文件 时 ， 静 态 执行 一 些 链接 ， 然 
后 在 程序 加 载 时 ， 动 态 完 成 链接 过 程 。 

认识 到 这 一 点 是 很 重要 的 : 此 时 ， 没 ee 
有 任何 1ibvector .so 的 代码 和 数据 节 真 。 接 的 可 执行 文件 
的 被 拷贝 到 可 执行 文件 p2 中 。 反 之 ， 链 接 ah 
器 拷贝 了 一 些 重 定位 和 符号 表 信息 ， 它 们 ee 
使 得 运行 时 可 以 解析 对 1ibvector .so 中 代码 和 数据 的 引用 。 

当 加 载 器 加 载 和 运行 可 执行 文件 p2 时 ， 它 利用 7.9 节 中 讨论 过 的 技术 ， 加 载 部 分 链接 的 可 
执行 文件 p2。 接 着 ， 它 注意 到 p2 包含 一 个 .interp 节 ， 这 个 节 包 含 动态 链接 器 的 路 径 名 ， 动 
态 链接 器 本 身 就 是 一 个 共享 目标 〈 比 如 ， 在 Linux 系统 上 的 LD-LINUX.SO)。 加 载 器 不 再 像 它 通 
常 那样 将 控制 传递 给 应 用 ， 而 是 加 载 和 运行 这 个 动态 链接 器 。 

然后 ， 动 态 链接 器 通过 执行 下 面 的 重 定位 完成 链接 任务 : 

。 重 定位 1ibc. so 的 文本 和 数据 到 某 个 存储 器 段 。 

。 重 定位 1ibvector .so 的 文本 和 数据 到 另 一 个 存储 器 段 。 

。 重 定位 p2 中 所 有 对 由 Libc.so 和 libvector.so 定义 的 符号 的 引用 。 
最 后 ， 动 态 链接 器 将 控制 传递 给 应 用 程序 。 从 这 个 时 刻 开始 ， 的 他 生 和 国 下 二 并 且 在 程 
序 执行 的 过 程 中 都 不 会 改变 。 


7.11 从 应 用 程序 中 加 载 和 链接 共享 库 


到 此 刻 为 止 ， 我们 已 经 讨论 了 在 应 用 程序 执行 之 前 ， 即 应 用 程序 被 加 载 时 ， 动 态 链接 器 加 载 
和 链接 共享 库 的 情景 。 然 而 ， 应 用 程序 还 可 能 在 它 运行 时 要 求 动 态 链接 器 加 载 和 链接 任意 共享 
库 ， 而 无 需 在 编译 时 链接 那些 库 到 应 用 中 。 


libc.so 
libvector.so 


代码 和 数据 
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动态 链接 是 一 项 强大 有 用 的 技术 。 下 面 是 一 些 现实 世界 中 的 例子 : 
。 分 发 软件 。 微 软 Windows 应 用 的 开发 者 常常 利用 共享 库 来 分 发 软件 更 新 。 他 们 生成 一 个 
共享 库 的 新 版 本 ， 然 后 用 户 可 以 下 载 ， 并 用 它 蔡 代 当 前 的 版 本 。 下 一 次 他 们 运行 应 用 程序 
时 ， 应 用 将 自动 链接 和 加 载 新 的 共享 库 。 
。 构建 高 性 能 Web 服务器。 许多 Web 服务 器 生成 动态 内 容 ， 比 如 个 性 化 的 Web 页 面 、 账 户 
余额 和 广告 标语 。 早 期 的 Web 服务 器 通过 使 用 fork 和 execve 创建 一 个 子 进程 ， 并 在 该 
子 进程 的 上 下 文中 运行 CGI 程序 来 生成 动态 内 容 。 然 而 ， 现 代 高 性 能 的 Web 服务 器 可 以 
使 用 基于 动态 链接 的 更 有 效 和 完善 的 方法 来 生成 动态 内 容 。 
其 思路 是 将 生成 动态 内 容 的 每 个 函数 打包 在 共享 库 中 。 当 一 个 来 自 Web b 浏览 器 的 请 求 到 达 
时 ， 服 务 器 动态 地 加 载 和 链接 适当 的 函数 ， 然 后 直接 调用 它 ， 而 不 是 使 用 fork 和 execve 在 子 
进程 的 上 下 文中 运行 函数 。 顶 数 会 一 直 缓 存在 服务 器 的 地 址 空间 中 ， 所 以 只 要 一 个 简单 的 函数 调 
用 的 开销 就 可 以 处 理 随 后 的 请 求 了 。 这 对 一 个 繁忙 的 网 站 来 说 是 有 很 大 影响 的 。 更 进一步 考虑 ， 
在 运行 时 无 需 停 止 服 务 器 ， 就 可 以 更 新 已 存在 的 函数 ， 以 及 添加 新 的 函数 。 
Linux 系统 为 动态 链接 器 提供 了 一 个 简单 的 接口 ， 允 许 应 用 程序 在 运行 时 加 载 和 链接 共享 库 。 


#include <dlfcn.h> 


void *dlopen(const char *filename, int flag); 


返回 : 车 成 功 则 为 指向 向 枉 的 指针 ， 若 出 错 则 为 NULL。 





dlopen 函数 加 载 和 链接 共享 库 filename。 用 以 前 带 RTLD_GLOBAL 选项 打开 的 库 解 析 
filename 中 的 外 部 符号 。 如 果 当 前 可 执行 文件 是 带 -rdynamic 选项 编译 的 ， 那 么 对 符号 解析 
而 言 ， 它 的 全 局 符号 也 是 可 用 的 。flag 参数 必须 要 么 包括 RTLD_NOW， 该 标志 告诉 链接 器 立即 
解析 对 外 部 符号 的 引用 ， 要 么 包括 RTLD_LAZY 标志 ， 该 标志 指示 链接 器 推迟 符号 解析 直到 执行 
来 自 库 中 的 代码 。 这 两 个 值 中 的 任意 一 个 都 可 以 和 RTLD_GLOBAL 标志 取 或 。 


#include <dlfcn.h> 


void *dlsym(void *handle, char *symbol); 





返回 : 车 成 功 则 为 指向 符号 的 指针 ， 若 出 错 则 为 NULL。 


dlsym 函数 的 输入 是 一 个 指向 前 面 已 经 打开 共享 库 的 句柄 和 一 个 符号 名 字 ， 如 果 该 符号 存在 ， 
就 返回 符号 的 地 址 ， 否 则 返回 NULL。 


#include <dlfcn.h> 


int dlclose (void *hand]le); 
返回 : 车 成 功 则 为 0， 若 出 错 则 为 -1。 





如 果 没 有 其 他 共享 库 正 在 使 用 这 个 共享 库 ，d1lclose 函数 就 抒 载 该 共享 库 。 


#include <djfcn.h> 


const char *dlerror(void); 


返回 : 如 果 前 面 对 dlopen、dlsym 或 dlclose 的 调用 失败 ， 
则 为 错误 消息 ， 如 果 前 面 的 调用 成 功 ， 则 为 NULL。 
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dlerror 函数 返回 一 个 字符 串 ， 它 描述 的 是 调用 dlopen、dlsym 或 者 dlclose 函数 时 发 生 
的 最 近 的 错误 ， 如 果 没 有 错误 发 生 ， 就 返回 NULL。 

图 7-16 展示 了 我 们 如 何 利用 这 个 接口 动态 链接 我 们 的 1ibvector .so 共享 库 〈 见 图 7-5 )， 
然后 调用 它 的 addvec 程序 。 要 编译 这 个 程序 ， 我 们 将 以 下 面 的 方式 调用 GCC : 


nix> gcc -rdynamic -02 -0 p3 dll.c -1dl 


code/link/dll.c 

1 #jinclude <stdio.h> 

2 #include <stdlib.h> 

3 #include <dlfcn.h> 

4 

5 int xft2] = {1,， 2}; 

6 int y[2] = {3, 4}; 

7 int z[2]; 

8 

9 int main() 

10 二 

11 void *handle; 

12 void (*addvec) (int *, int *, int *, int); 

13 char *error; 

14 

15 /* Dynamically load shared library that contains addvec() */ 
16 handle = dlopen("./libvector.so", RTLD_LAZY); 

17 if (!handle) { 

18 fprintf (stderr, "%s\n", dlerror()); 

19 exit (1); 

20 } 

21 | 

22 /* Get a pointer to the addvec() function we just loaded +*/ 
23 addvec = dlsym(handle, "addvec'"); 

24 if ((error = dlerror()) != NULL) { 

25 fprintf (stderr, "%s\n", error); 

26 exit (1); 

27 } 

28 
29 /* Now we can call addvec() just like any other function */ 
30 addvec(x, y, Zz, 2); 

31 printf("z = [%d %dj\n", z[0] , z[1]); 

32 

33 /* Unload the shared library */ 

34 if (dlclose(handle) < 0) { 

35 fprintf (stderr, "%s\n", dlerror()); 

36 exit(1); 

37 } 

38 return 0; 

39 

code/link/dll.c 


图 7-16 一 个 动态 加 载 和 链接 共享 库 1ibvector .so 的 应 用 程序 


共享 库 和 Java 本 地 接口 
_ Java 定义 了 一 个 标准 调用 规则 ， 叫 做 Java 本 地 接口 (Java Native Interface，JNI)， 它 允许 
Java 程序 调用 “本 地 的 > C 和 C++ 函数。JNI 的 基本 思想 是 将 本 地 C 函数 ， 如 foo， 编 译 到 共 
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享 库 中 ， 如 foo.so。 当 一 个 正在 运行 的 Java 程序 试图 调用 函数 foo 时 ，Java 解释 程序 利用 
dlopen 接口 (或 者 与 其 类 似 的 接口 ) 动态 链接 和 加 载 foo .so， 然 后 再 调用 foo。 


7.12 与 位 置 无 关 的 代码 (PIC) 


共享 库 的 一 个 主要 目的 就 是 允许 多 个 正在 运行 的 进程 共享 存储 器 中 相同 的 库 代 码 ， 因 而 节约 
宝贵 的 存储 器 资源 。 那 么 ， 多 个 进程 是 如 何 共享 程序 的 一 个 拷贝 的 呢 ? 一 种 方法 是 给 每 个 共享 库 
分 配 一 个 事先 预备 的 专用 的 地 址 空间 片 〈chunk)， 然 后 要 求 加 载 器 总 是 在 这 个 地 址 加 载 共享 库 。 
虽然 这 种 方法 很 简单 ， 但 是 它 也 造成 了 一 些 严重 的 问题 。 首 先 ， 它 对 地 址 空间 的 使 用 效率 不 高 ， 
因为 即使 一 个 进程 不 使 用 这 个 库 ， 那 部 分 空间 还 是 会 被 分 配 出 来 。 其 次 ， 它 也 难以 管理 。 我 们 将 
不 得 不 保证 没有 片 会 重合 。 每 次 当 一 个 库 修改 了 之 后 ， 我 们 必须 确认 它 的 已 分 配 的 片 还 适合 它 的 
大 小 。 如 果 不 适合 了 ， 必 须 找 一 个 新 的 片 。 并 且 ， 如 果 我 们 创建 了 一 个 新 的 库 ， 还 必须 为 它 寻 找 
空间 。 随 着 时 间 的 进展 ， 假 设 在 一 个 系统 中 有 了 成 百 个 库 和 各 种 版 本 的 库 ， 就 很 难 避 人 免 地 址 空间 
分 裂 成 大 量 小 的 、 未 使 用 而 又 不 再 能 使 用 的 小 洞 。 其 至 更 糟 的 是 ， 对 每 个 系统 而 言 ， 库 在 存储 器 
中 的 分 配 都 是 不 同 的 ， 这 就 引起 了 更 多 令 人 头痛 的 管理 问题 。 > 

一 种 更 好 的 方法 是 编译 库 代码 ， 使 得 不 需要 链接 器 修改 库 代 码 就 可 以 在 任何 地 址 加 载 和 执行 
这 些 代 码 。 这 样 的 代码 叫做 与 位 置 无 关 的 代码 (Position-Independent Code， PIC)。 用 户 对 GCC 
使 用 -fPIC 选项 指示 GNU 编译 系统 生成 PIC 代码 。 

在 一 个 IA32 系统 中 ， 对 同一 个 目标 模块 中 过 程 的 调用 是 不 需要 特殊 处 理 的 ， 因 为 引用 是 PC 
相对 的 ， 已 知 偏 移 量 就 已 经 是 PIC 了 参见 练习 题 7.4)。 然 而 ， 对 外 部 定义 的 过 程 调用 和 对 全 
局 变量 的 引用 通常 不 是 PIC， 因 为 它们 都 要 求 在 链接 时 重 定位 。 

1. PIC 数据 引用 

编译 器 通过 运用 以 下 这 个 有 趣 的 事实 来 生成 对 全 局 变量 的 PIC 引用 : 无 论 我 们 在 存储 器 中 
的 何 处 加 载 一 个 目标 模块 (包括 共享 目标 模块 )， 数 据 段 总 是 被 分 配 成 紧 随 在 代码 段 后 面 。 因 此 ， 
代码 段 中 任何 指令 和 数据 段 中 任何 变量 之 间 的 距离 都 是 一 个 运行 时 常量 ,与 ts 
对 存储 器 位 置 是 无 关 的 。 

为 了 运用 这 个 事实 ， 编 译 器 在 数据 段 开 始 的 地 方 创 建 了 一 个 表 ， 叫 做 全 局 偏 移 量 表 〈Global 
Offset Table，GOT)。 在 GOT 中 ， 每 个 被 这 个 目标 模块 引用 的 全 局 数据 对 象 都 有 一 个 条 目 。 编 译 
器 还 为 GOT 中 每 个 条 目 生成 一 个 重 定 位 记录 。 在 加 载 时 ， 动 态 链接 器 会 重 定位 GOT 中 的 每 个 
条 目 ， 使 得 它 包 含 正 确 的 绝对 地 址 。 每 个 引用 全 局 数据 的 目标 模块 都 有 自己 的 GOT。 

在 运行 时 ， 使 用 下 面 形式 的 代码 ， 通 过 GOT 间接 地 引用 每 个 全 局 变量 : 


call L1 

L1: popl] %ebx ebx contains the current PC 
addl] $VAROFF, %ebx ebx points to the GOT entry for var 
movl] (%ebx), %heax reference indirect through the GOT 
movl] (Weax), heax 


在 这 段 非常 有 趣 的 代码 中 ， 对 L1 的 调用 将 返回 地 址 (正好 就 是 pop1 指令 的 地 址 ) 压 入 栈 
中 。 随 后 ，pop1 指令 把 这 个 地 址 弹出 到 sebx 中 。 这 两 条 指令 的 最 终 效果 是 将 PC 的 值 移 到 寄 
存 器 sebx 中 。 

指令 addl 给 sebx 增加 一 个 常数 偏 移 量 ， 使 得 它 指 向 GOT 中 适当 的 条 目 ， 该 条 目 包 含 数 
据 项 的 绝对 地 址 。 此 时 ， 就 可 以 通过 包含 在 sebx 中 的 GOT 条 目 间 接地 引用 全 局 变量 了 。 在 这 
个 示例 中 ， 两 条 mov1l 指令 (间接 地 通过 GOT) 加 载 全 局 变量 的 内 容 到 寄存 器 $eax 中 。 

PIC 代码 有 性 能 缺陷 。 现 在 每 个 全 局 变量 引用 需要 五 条 指令 而 不 是 一 条 ， 还 需要 一 个 额外 的 
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对 GOT 的 存储 器 引用 。 而 且 ，PIC 代码 还 要 用 一 个 额外 的 寄存 器 来 保持 GOT 条 目的 地 址 。 在 具 
有 大 寄存 器 文件 的 机 器 上 ， 这 不 是 一 个 大 问题 。 然 而 ， 在 寄存 器 供应 不 足 的 IA32 系统 中 ， 即 使 
失掉 一 个 寄存 器 也 会 造成 寄存 器 溢出 到 栈 中 。 

2. PIC 函数 调用 

PIC 代码 当然 可 以 用 相同 的 方法 来 解析 外 部 过 程 调 用 : 


call L1 


L1: popl %ebx ebx contains the current PC 
add] $PROCOFF, Webx ebx points to GOT entry for proc 
call *(%ebx) call indirect through the GOT 


不 过 ， 这 种 方法 对 每 一 个 运 云 行 行 时 过 程 调用 都 要 求 三 条 额外 的 指令 。 反之 ，ELF 编译 系统 使 用 一 种 
有 趣 的 技术 ， 叫 做 延迟 绑 定 (lazy binding)， 将 过 程 地 址 的 绑 定 推迟 到 第 一 次 调用 该 过 程 时 。 第 
一 次 调用 过 程 的 运行 时 开销 很 大 ， i i 只 会 花费 一 条 指令 和 一 个 间接 的 存储 器 
引用 。 

延迟 线 定 是 通过 两 个 数据 结构 之 间 简 洁 但 又 有 些 复杂 的 交互 来 实现 的 ， 这 两 个 数据 结构 是 : 
GOT 和 过 程 链接 表 〈(Procedure Linkage Table，PLT)。 如 果 一 个 目标 模块 调用 定义 在 共享 库 中 的 
任何 函数 ， 那 么 它 就 有 自己 的 GOT 和 PLT。GOT 是 .data 节 的 一 部 分 。PLT 是 .text 节 的 一 
部 分 。 

图 7-17 展示 了 图 7-6 中 示例 程序 main2.o 的 GOT 的 格式 。 汪 芝 条 GOT 条 目 是 特殊 的 : 
”GOTI[0] 包含 .dynamic 段 的 地 址 ， 这 个 段 包含 了 动态 链接 器 用 来 绑 定 过 程 地 址 的 信息 ， 比 如 符 
号 表 的 位 置 和 重 定位 信息 。GOT[1] 包含 定义 这 个 模块 的 一 些 信息 。GOT[2] 包含 动态 链接 器 的 延 
迟 绑 定 代码 的 人 口 点 。 


08049674 GOT[0] 0804969c dynamic 节 的 地 址 

08049678 GOT[1] 4000a9f8 链接 器 的 标识 信息 

0804967c GOT[2] 4000596f 动态 链接 器 中 的 人 口 点 .: 

08049680 GOT[3] 0804845a PLT[1] 中 push1 地 址 (printf) 
| 08049684 GOT[4] 0804846a PLT[2] 中 pushl 地 址 (addvec) 


图 7-17 可 执行 文件 p2 的 全 局 偏 移 量 表 (GOT)。 原 始 代码 见 图 7-5 和 图 7-6 


定义 在 共享 目标 中 并 被 main2 .o 调用 的 每 个 过 程 在 GOT 中 都 会 有 一 个 条 目 ， 从 GOT[3] 条 
目 开 始 。 对 于 示例 程序 ， 我 们 给 出 了 printf 和 addvec 的 GOT 条目 ，printf 定义 在 libc. 
so 中 ， 而 addvec 定义 在 libvector.so 中。 

图 7-18 展示 了 示例 程序 p2 的 PLT。PLT 是 一 个 数组 ， 其 中 每 个 条 目 是 16 字 节 。 第 一 个 条 
目 PLT[0] 是 一 个 特殊 条 目 ， 它 跳 转 到 动态 链接 器 中 。 每 个 被 调用 的 过 程 在 PLT 中 都 有 一 个 条 
目 ， 从 PLT[1] 开始 。 在 图 中 ，PLT[1] 对 应 于 printf，PLT[2] 对 应 于 addvec。 

初始 地 ， 在 程序 被 动态 链接 并 开始 执行 后 ， 过 程 printf 和 addvec 被 分 别 绑 定 到 它们 相 
应 的 PLT 条 目 中 的 第 一 条 指令 上 。 比 如 ， 对 addvec 的 调用 有 如 下 形式 : z 





80485bb:  e8 a4 fe ff ff call 8048464 <addvec> : 
当 addvec 第 一 次 被 调用 时 ， 控 制 传递 到 PLT[2] 的 第 一 条 指令 ， 该 指令 通过 GOT[4] 执行 一 个 
间接 跳 转 。 初 始 地 ， 每 个 GOT 条目 包含 相应 的 PLT 条目 中 pushl 条 目的 地 址 。 所 以 ，PLT 中 
的 间接 跳 转 仅仅 是 将 控制 转移 回 到 PLT[2] 中 的 下 一 条 指令 。 这 条 指令 将 addvec 符号 的 卫 压 人 
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栈 中 。 最 后 一 条 指令 跳 转 到 PLT[0]， 从 GOT[1] 中 将 另外 一 个 标识 信息 的 字 压 人 栈 中 ， 然 后 通过 
GOT[2] 间接 跳 转 到 动态 链接 器 中 。 动 态 链接 器 用 两 个 栈 条 目 来 确定 addvec 的 位 置 ， 用 这 个 地 
址 覆盖 GOT[4]， 并 把 控制 传递 给 addvec 


PLT[O] 

08048444: ff 35 78 96 04 08 pushl 0x8049678 piush &GOTL | 
804844a: ff 25 7c 96 04 08 jmp *0x804967c jmp to yxGOTI27 (inker) 
8048450: 00 00 padding 


| 8048452: 00 00 padoi ng 


PLTT1] “printf> 
8048454: {25 30 96 04 08 jmp *O0xX8049680 ”jp to #4GOT{3] 
804845a: 6@@ 00 00 00 00 pushl $0x0 DOr prints 
~ 804845f: 69 e0 ff ff ff jmp 8048444 jmp to PLTLO} 


PLT[2] <addvec> 

8048464: ff 25 84 96 04 08 jmp *OxX8049684 jinmp to *G OT[4 了 
.804846a: 68 08 00 00 00 pushl $0x8 ID for addvec 

804846f: e9 dO ff ff ff jmp 8048444 to PLTEO} 


<other PLT entries> 


图 7-18 ”可 执行 文件 P2 的 过 程 链接 表 (PLT)。 原 始 代 码 见 图 7-5 和 图 7-6 


下 一 次 在 程序 中 调用 addvec 时 ， 控 制 像 前 面 一 样 传递 给 PLT[2]。 不 过 这 次 通过 GOTI4] 的 
间接 跳 转 将 控制 传递 给 addvec。 从 此 刻 起 ， 唯 一 额外 的 开销 就 是 对 间接 跳 转 存储 器 的 引用 。 


7.13 ”处 理 目标 文件 的 工具 


在 Unix 系统 中 有 大 量 可 用 的 工具 可 以 帮助 你 理解 和 处 理 目 标 文件 。 特 别 地 ，GNU binutils 
包 尤 其 有 帮助 ， 而 且 可 以 运行 在 每 个 Unix 平台 上 。 
“AR : 创建 静态 库 ， 插 入 、 删 除 、 列 出 和 提取 成 员 。 
* STRINGS : 列 出 一 个 目标 文件 中 所 有 可 打印 的 字符 串 。 
* STRIP : 从 目标 文件 中 删除 符号 表 信 息 。 
“NM : 列 出 一 个 目标 文件 的 符号 表 中 定义 的 符号 。 
~ 。SIZE: 列 出 目标 文件 中 市 的 名 字 和 大 小 。 
。 READELF : 显示 一 个 目 标 文件 的 完整 结构 ， 包括 ELF 头 中 编码 的 所 有 信息 。 包 含 SIZE 和 
NM 的 功能 。 
。OBJDUMP : 所 有 二 进 制 工具 之 母 。 能 够 显示 一 个 目标 文件 中 所 有 的 信息 。 它 最 大 的 作用 
是 反 汇 编 .text 节 中 的 二 进 制 指令 。 
Unix 系统 为 操作 共享 库 还 提供 了 LDD 程序 : 
。LDD : 列 出 一 个 可 执行 文件 在 运行 时 所 需要 的 共享 库 。 


7.14 小 结 


链接 可 以 在 编译 时 由 静态 编译 器 来 完成 ， 也 可 以 在 加 载 时 和 运行 时 由 动态 链接 器 来 完成 。 链 
接 天 处 理 称 为 目标 文件 的 二 进 制 文件 ， 它 有 三 种 不 同 的 形式 : 可 重 定位 的 、 可 执行 的 和 共享 的 。 
可 重 定位 的 目标 文件 由 静态 链接 器 合并 成 一 个 可 执行 的 目标 文件 ， 它 可 以 加 载 到 存储 器 中 并 执 
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行 。 共 享 目 标 文 件 〈 共 享 库 ) 是 在 运行 时 由 动态 链接 器 链接 和 加 载 的 ， 或 者 隐 含 地 在 调用 程序 被 
加 载 和 开始 执行 时 ， 或 者 根据 需要 在 程序 调用 dlopen 库 的 函数 时 。 

链接 器 的 两 个 主要 任务 是 符号 解析 和 重 定位 ， 符 号 解析 将 目标 文件 中 的 每 个 全 局 符号 都 绑 定 
到 一 个 唯一 的 定义 ， 而 重 定位 确定 每 个 符号 的 最 终 存储 器 地 址 ， 并 修改 对 那些 目标 的 引用 。 

静态 链接 器 是 由 像 GCC 这 样 的 编译 驱动 器 调用 的 。 它 们 将 多 个 可 重 定位 目标 文件 合并 成 一 
个 单独 的 可 执行 目标 文件 。 多 个 目标 文件 可 以 定义 相同 的 符号 ， 而 链接 器 用 来 悄悄 地 解析 这 些 多 
重 定义 的 规则 可 能 在 用 户 程序 中 引入 的 微妙 错误 。 

多 个 目标 文件 可 以 被 连接 到 一 个 单独 的 静态 库 中 。 链 接 器 用 库 来 解析 其 他 目标 模块 中 的 符号 
引用 。 许 多 链接 器 通过 从 左 到 右 的 顺序 扫描 来 解析 符号 引用 ， 这 是 另 一 个 引起 令 人 迷惑 的 链接 时 
错误 的 来 源 。 

加 载 器 将 可 执行 文件 的 内 容 映 射 到 存储 器 ， 并 运行 这 个 程序 。 链 接 器 还 可 能 生成 部 分 链接 的 
可 执行 目标 文件 ， 这 样 的 文件 中 有 对 定义 在 共享 库 中 的 程序 和 数据 的 未 解析 的 引用 。 在 加 载 时 ， 
加 载 器 将 部 分 链接 的 可 执行 文件 映射 到 存储 器 ， 然 后 调用 动态 链接 器 ， 它 通过 加 载 共 享 库 和 重 定 
位 程序 中 的 引用 来 完成 链接 任务 。 : 

被 编译 为 位 置 无 关 代码 的 共享 库 可 以 加 载 到 任何 地 方 ， 也 可 以 在 运行 时 被 多 个 进程 共享 。 为 
了 加 载 、 链 接 和 访问 共享 库 的 函数 和 数据 ， 应 用 程序 还 可 以 在 运行 时 使 用 动态 链接 器 。 


参考 文献 说 明 


在 计算 机 系统 文献 中 并 没有 很 好 地 记录 链接 。 因 为 链接 是 处 在 编译 器 、 计 算 机 体系 结构 和 
操作 系统 的 交叉 点 上 ， 它 要 求 理 解 代 码 生成 、 机 器 语言 编程 、 程 序 实例 化 和 虚拟 存储 器 。 它 恰 
好 不 落 在 某 个 通常 的 计算 机 系统 领域 中 ， 因 此 这 些 领域 的 经 典 文献 并 没有 很 好 地 描述 它 。 然 而 ， 
Levine 的 专著 提供 了 有 关 这 个 主题 的 很 好 的 一 般 性 参考 资料 [66]。[52] 描述 了 ELF 和 DWARF 
的 原始 规范 (对 .debug 和 .Line 节 内 容 的 规范 )。 : 

围绕 二 进 制 翻译 (binary translation) 的 概念 有 一 些 有 趣 的 研究 和 商业 活动 ， 二 进 制 翻译 包 
括 目标 文件 内 容 的 语法 解析 、 分 析 和 修改 。 二 进 制 翻译 有 三 个 不 同 的 目的 [64] : 在 一 个 系统 上 模 
拟 另 一 个 系统 ， 观 察 程序 行为 ， 或 是 执行 不 能 在 编译 时 执行 的 与 系统 相关 的 优化 。 一 些 商 业 产 
品 ， 比 如 VTune、Purify 和 BoundsChecker， 用 二 进 制 翻译 来 为 程序 员 提供 对 程序 的 详细 的 观察 。 
Valgrind 是 一 个 对 应 的 、 很 受 欢迎 的 开源 软件 。 \ 

Atom 系统 提出 了 一 个 灵活 的 机 制 ， 能 向 任意 的 C 函数 提供 Alpha 可 执行 目标 文件 和 共享 库 
[103]。Atom 被 用 来 创建 无 数 种 分 析 工 具 ， 包 括 跟 踪 过 程 调 有 用、 前 析 指 令 计 数 和 存储 器 引用 模式 、 
模拟 存储 器 系统 行为 ， 以 及 隔离 存储 器 引用 错误 。Etch[90] 和 EEL[64] 在 不 同 的 平台 上 提供 了 大 
致 相似 的 功能 。Shade 系统 利用 二 进 制 翻译 实现 指令 剖析 [23]。Dynamo[5] 和 Dyninst[15] 提供 了 
一 些 机 制 ， 能 在 运行 时 为 存储 器 中 的 可 执行 文件 提供 测试 和 优化 。Smith 和 他 的 同事 们 致力 于 研 
究 用 于 程序 剖析 和 优化 的 二 进 制 翻译 [121]。 


家 庭 作 业 
*7.6 考虑 下 面 的 swap.c 函数 版 本 ， 它 计算 自己 被 调用 的 次 数 : 


extern int buf [] ; 


int *bufp0 = &buf [0] ; 
static int *bufpi; 


个 nn NN -一 


static void incr() 


*7.7 


*7.8 
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7 1 

3 static int count=0; 
10 Count++，; 

i } 

12 

13 void swap() 

14 

15 int temp; 

16 

17 incr(); 

18 bufp1 = &buf [1]; 
19 temp = *bufpo; 
20 *bufpO = *bufpli; 
21 *bufpl = temp; 
2 


对 于 每 个 swap .o 中 定义 和 引用 的 符号 ， 请 指出 它 是 否 在 模块 swap.o 的 .symtab 节 中 有 符号 表 条 
目 。 如 果 是 这 样 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 main.o)、 符 号 类 型 《本 地 、 全 局 或 外 部 ) 
以 及 它 在 模块 中 所 处 的 书 (.text、.data 或 .bss)。 





不 改变 任何 变量 名 字 ， 修改 7.6.1 节 中 的 bar5.c， 使 得 foo5.c 输出 A 0 
15213 和 15212 的 十 六 进 制 表示 )。 

在 此 题 中 ，REF (x,i) -->DEF (x, Kk) 表示 链接 器 将 任意 对 模块 i 中 符号 x 的 引用 与 模块 k 中 符号 x 
的 定义 相关 联 。 在 下 面 每 个 例子 中 ， 用 这 种 符号 来 说 明 链 接 器 是 如 何 解析 在 每 个 模块 中 有 多 重 定义 的 
引用 的 。 如 果 出 现 链接 时 错误 (规则 1)， 写 “ERROR”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 (规则 
3)， 那 么 写 “UNKNOWN ”。 


A. /* sodule 1 */ z /* Module 2 */ 
int main() static int main=1; 
{ int .P2() 
} { 
于 
a) REF(main.1) --> DEF(.  ._ ) 
b) REF(main.2) --> DEF(..............) 
B. /+ Module 1 */ /* Module 2 x*/ 
int xX; double XxX; 
void main() int p2() 
{ { 
} } 
a) REF(x.1) -~-->DEF( . ......) 


b) REF(x.2) -->DEF( . .) 
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*7.9 





C. /* Module 1 */ /* Module 2 */ 
int X=1; double x=1.0; 
void main() int p2() 
{ { 
} } 
a) REF(x.1) --> DEF( er 
b) REF(x.2) ~-->DEF(.  ...) 
考虑 下 面 的 程序 ， 它 由 两 个 目标 模块 组 成 : 
1 /* foo6.C */ 1 /* bar6.c */ 
2 void p2(void); 2  #include <stdio.h> 
3 3 
4 int main() 4 char main; 
5 { 5 
6 P2() ; 6 void p2() 
7 return 0; 2 沪 
8 + 8 printf ("Ox%x\n", main); 
9 3} 


当 在 Linux 系统 中 编译 和 执行 这 个 程序 时 ， 即 使 P2 不 初始 化 变量 main， 它 也 能 打印 字符 串 
“0x55\n” 并 正常 终止 。 你 能 解释 这 一 点 吗 ? 


*7.10 a 和 b 表 示 当 前 路 径 中 的 目标 模块 或 静态 库 ， 而 a 一 b 表 示 a 依赖 于 b， 也 就 是 说 a 引用 了 一 个 
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b 定义 的 符号 。 对 于 下 面 的 每 个 场景 ， 给 出 使 得 静态 链接 器 能 够 解析 所 有 符号 引用 的 最 小 的 命令 行 
(含有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 ): 

A.pP.o 一 ipbpx.a 一 P.o. 

B. p.o— libx.a— liby.a 和 1liby.a— libx.a. 

C. p.o libx.a— liby.a— libz.a 和 1liby.a— libx.a— libz.a. 

图 7-12 中 的 段 头 部 表明 数据 段 占用 了 存储 器 中 0x104 个 字 节 。 然 而 ， 只 有 开始 的 0xe8 字 节 来 自 可 
执行 文件 的 节 。 引 起 这 种 差异 的 原因 是 什么 ? 

图 7-10 中 的 swap 程序 包含 5 个 重 定 位 的 引用 。 对 于 每 个 重 定 位 的 引用 ， 给 出 它 在 图 7-10 中 的 行 
号 、 运 行 时 存储 器 地 址 和 值 。swap .o 模块 中 的 原始 代码 和 重 定 位 条 目 如 图 7-19 所 示 。 


00000000 <swap>: . 
: 55 push  %ebp 

8b 15 00 00 00 00. moV Ox0 , hedx Get *bufpO=&buf [0] 
3: R_386_32 bufpO Relocation entry 

al 04 00 00 00 moV 0X4 ,heax Get buf[1] 
8: R_386_32 buf Relocation entry 

89 e5 moV %esp, webp 

c7. 00 00 00 00 04 moVvl $0x4,0x0 bufpl = &buf{1); 

00 00 
10: R_386_32 bufpli Relocation entry 
14: R_386_32 buf Relocation entry 
mov %ebp, %esp 
mOV (%edx) ,hecx temp = buf[{0]; 
mov Weax, (Wedx) buf [0] =buf [1}; 

00 00 00 mov Ox0.,%eax Get *bufp1=&buf [1] 
i1f: R_386_32 bufpl Relocation entry 
moV Wecx, (Weax) buf [1] =temp; 
pop ebp 
ret 


7-19 ”练习 题 7.12 的 代码 和 重 定位 条 目 








崇 7.13 考虑 图 7-20 中 的 C 代码 和 相应 的 可 重 定位 目标 模块 。 
A. 确定 当 模 块 被 重 定位 时 ， 链 接 器 将 修改 .text 中 的 哪些 指令 。 对 于 每 条 这 样 的 指令 ， 列 出 它 的 
重 定位 条 目 中 的 信息 : 节 人 篇 移 、 重 定位 类 型 和 符号 名 字 。 
B. 确定 当 模块 被 重 定位 时 ， 链 接 器 将 修改 .data 中 的 哪些 数据 目标 。 对 于 每 条 这 样 的 指令 ， 列 出 它 
的 重 定位 条 目 中 的 信息 : 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 
可 以 随意 使 用 诸如 OBJDUMP 之 类 的 工具 来 帮助 你 解答 这 个 题目 。 


extern int p3(void) ; 
int x = 1; 
int *xp = &x; 


void p2(int y) { 
} 


void pi() { 
p2(*xp + p3()); 
} 





a) C 代码 


00000000 <p2>: 
0 : %ebp 
13 hesp, webp 
3， %ebp ,%esp 
5: %ebp 
6: 


00000008 <pl>: 
8: Xebp 
e5 %esp,%ebp 
ec 08 $0x8,%esp 
c4 f4 $Oxfffffff4,%esp 
fc ff ff ff 12 <pli+Oxa> 
c2 %eax ,wedx 
00 00 00 00 Ox0 ,Weax 
10 (weax) ,Wedx 
%edx 
fc ff ff ff 21 “pl+Ox19> 
ec hebp ,%esp 
%ebp 





b) 可 重 定位 目标 文件 的 .text 节 


00000000 <x>: 
0: 01 00 00 00 


O00000004 <xp>: 
4: 00 00 00 00 


c) 可 重 定位 目标 文件 的 .data 节 
图 7-20 练习 题 7.13 的 示例 代码 
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妆 7.14 考虑 图 7-21 中 的 C 代码 和 相应 的 可 重 定位 目标 模块 。 


A. 确定 当 模块 被 重 定 位 时 ， 链 接 器 将 修改 .text 中 的 哪些 指令 。 对 于 每 条 这 样 的 指令 ， 列 出 


重 定位 条 目 中 的 信息 : 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 


B. 确定 当 模 块 被 重 定 位 时 ， 链 接 器 将 修改 .rodata 中 的 哪些 数据 。 对 于 每 条 这 样 的 指令 ， 列 出 
的 重 定 位 条 目 中 的 信息 


00000000 <relo3>: 


55 
89 
8b 
8d 
83 
77 
ff 


eb 


Pe lsh 
ee N 


3 


wo Pe ; 2 el 
2 YR 


eb 
8d 
83 
eb 
83 
89 
5d 
c3 


et 


: 


Ce 


83 


: 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 
可 以 随意 使 用 诸如 OBJDUMP 之 类 的 工具 来 帮助 你 解答 这 个 题目 。 


int relo3(int val) { 





eb 
45 
50 
fa 
17 
24 


40 | 


10 
CO 
Ob 
76 
CO 
03 
CO 
ec 





switch (val) { 
case 100: | 

return(val); 
case 101: 


return(val+1); 
case 103: case 104: 


return(val+3); 
case 105: 

return(val+5); 
default: 

return(val+6); 


a) C 代码 


hebp 

hesp, hebp 

Ox8 (%ebp) ,heax 
Oxffffff9c(%eax) ,hedx 
$Ox5 , hedx 

25 <relo3+0x25> 
*Ox0( ,hedx ,4) 
heax 

28 <relo3+0x28> 
$Ox3 ,%eax 

28 <relo3+0x28> 
Ox0 (hesi) ,hesi 
$0x5 ,Weax 

28 <relo3+0x28> 
$0x6 ,Weax 

%ebp ,hesp 

%ebp 


00 00 00 00 


b)〉 可 重 定位 目标 文件 的 .text 市 


This 1s the Yunp table for the svwitch statement 


0000 28000000 15000000 25000000 18000000 4 words ar offsets Ox0O.0x4,0x8, and Oxe 
0010 18000000 20000000 





2 worads at offsets Ox10 and Qxid 


c) 可 重 定位 目标 文件 的 .rodata 节 
图 7-21 


练习 题 7.14 的 示例 代码 
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和 7.15 完成 下 面 的 任务 将 帮助 你 更 熟悉 处 理 目标 文件 的 各 种 工具 。 
A. 在 你 的 系统 上 ，1libc.a 和 1ibm.a 的 版 本 中 包含 多 少 目 标 文件 ? 
B. gcc-02 产生 的 可 执行 代码 与 gcc -02 -gg 产生 的 不 同 吗 ? 
C. 在 你 的 系统 上 ，GCC 驱动 程序 使 用 的 是 什么 共享 库 ? 


练习 题 答案 
练习 题 7.1 这 道 练习 题 的 目的 是 帮助 你 理解 链接 器 符号 和 C 变量 及 函数 之 间 的 关系 。 注 意 C 的 本 地 变量 
temp 没有 符号 表 条 目 。 


符号 swap.o .symtab 条目 ? 符号 类 型 在 哪个 模块 中 定义 节 
buf 是 extern ”main.o .data 
bufp0 是 global swap.o .data 
bufpl 是 global swap.o .bss 
swap 是 global swap.o .text 
temp 盏 = = Ss 


练习 题 7.2 这 是 一 个 简单 的 练习 ， 检 查 你 对 Unix 链接 器 解析 定义 在 一 个 以 上 模块 中 的 全 局 符号 时 所 使 用 
规则 的 理解 。 理 解 这 些 规 则 可 以 帮助 你 避免 一 些 讨 厌 的 编程 错误 。 
A. 链接 器 选择 定义 在 模块 1 中 的 强 符号 ， 人 中 的 弱 符 号 《规则 2 


(a) REF (main.1) -~-> DEF (main.1) 
(b) REF (main.2) --> DEF (main.1) 


B. 这 是 一 个 错误 ， 因 为 每 个 模块 都 定义 了 一 个 强 符号 main (规则 1)。 

C. 链接 器 选择 定义 在 模块 2 中 的 强 符号 ， 而 不 是 定义 在 模块 1 中 的 弱 符 号 (规则 2) : 
(a) REF(x.1) --> DEF(x.2) 

(b) REF (x.2) --> DEF(x.2) 


练习 题 7.3 ”在 命令 行 中 错误 地 放置 静态 库 的 位 置 是 造成 令 许多 程序 员 迷 惑 的 链接 器 错误 的 常见 原因 。 然 
而 ， 一 旦 你 理解 了 链接 器 是 如 何 使 用 静态 库 来 解析 引用 的 ， 它 就 相当 简单 易 懂 了 。 这 个 小 练习 检查 了 你 对 
这 个 概念 的 理解 : | 

A. gccp.o libx.a 

B. gccp.o1ibx.a liby.a 

‘C. gccp.0o libx.aliby.a libx.a 


练习 题 7.4 这 道 题 涉及 的 是 图 7-10 中 的 反 汇编 列表 。 目 的 是 让 你 练习 阅读 反 汇编 列表 ， 并 检查 你 对 PC 
相对 寻 址 的 理解 。 

A. 第 5 行 被 重 定位 引用 的 十 六 进 制 地 址 为 0x80483bb。 

B. 第 5 行 被 重 定 位 引用 的 十 六 进 制 值 为 0x9。 记 住 ， 反 汇编 列表 给 出 的 引用 值 是 用 小 端 法 字 节 顺序 表示 的 。 

C. 这 里 的 关键 观察 点 是 无 论 链接 器 将 .text 节 定 位 在 哪里 ， 引 用 和 swap 函数 间 的 距离 总 是 一 样 的 。 
因此 ， 无 论 链接 器 将 .text 节 定 位 在 何 处， 因为 引用 是 一 个 PC 相对 地 址 ， 所 以 它 的 值 都 将 是 0x9。 
练习 题 7.5 ”对 大 多 数 程序 员 而 言 ，C 程序 实际 是 如 何 启动 的 是 一 个 谜 。 这 些 问 题 检 查 了 你 对 这 个 启动 过 程 
的 理解 。 你 可 以 参考 图 7-14 中 的 C 启动 代码 来 回答 这 些 问 题 : 

A. 每 个 程序 都 需要 一 个 main 函数 ， 因 为 C 的 启动 代码 对 于 每 个 C 程序 而 言 都 是 相同 的 ， 要 跳 转 到 一 
个 叫做 main 的 函数 上 。 

B. 如 果 main 以 return 语句 终止 ， 那 么 控制 传递 回 局 动 程序 ， 该 程序 通过 调用 _exit 再 将 控制 返 

给 操作 系统 。 如 果 用 户 省 略 了 return 语句 ， 也 会 发 生 相 同 的 情况 。 如 果 main 是 以 调用 exit 终止 

那么 exit 将 最 终 通过 调用 _exit 将 控制 返回 给 操作 系统 。 在 这 三 种 情况 中 ， 最 终 效果 是 相同 的 : 当 
main 完成 时 ， 控 制 会 返回 给 操作 系统 。 
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异 芝 控制 流 





从 给 处 理 器 加 电 开 始 ， 直 到 断 电 为 止 ， Ee 
Co, G1, …，G 1 
其 中 ， 每 个 a 是 某 个 相应 的 指令 的 地 址 。 每 次 从 把 到 a 的 过 渡 称 为 控制 转移 《control 
transfer)。 这 样 的 控制 转移 序列 叫做 处 理 器 的 控制 流 〈flow of control 或 control low)。 

最 简单 的 一 种 控制 流 是 一 个 “平滑 的 ”序列 ， 其 中 每 个 1 和 i 在 存储 器 中 都 是 相 邻 的 。 典 
型 地 ， 这 种 平滑 流 的 突变 ， 也 就 是 1 与 五 不 相 邻 ， 是 由 诸如 跳 转 、 调 用 和 返回 这 样 一 些 束 芒 的 
程序 指令 造成 的 。 这 样 一 些 指令 都 是 必要 的 机 制 ， 使 得 程序 能 够 对 由 程序 变量 表示 的 内 部 程序 状 
态 中 的 变化 做 出 反应 。 

但 是 系统 也 必须 能 够 对 系统 状态 的 变化 做 出 反应 ， 这 些 系统 状态 不 是 被 内 部 程序 变量 捕获 
的 ， 而 且 也 不 一 定 要 和 程序 的 执行 相关 。 比 如 ， 一 个 硬件 定时 器 定期 产生 信号 ， 这 个 事件 必须 得 
到 处 理 。 包 到 达 网 络 适 配器 后 ， 必 须 存放 在 存储 器 中 。 程 序 向 磁盘 请 求 数 据 ， 然 后 休眠 ， 直 到 被 
通知 数据 已 就 绪 。 当 子 进程 终止 时 ， 创 造 这些 子 进程 的 父 进程 必须 得 到 通知 。 

现代 系统 通过 使 控制 流 发 生 突变 来 对 这 些 情 况 做 出 反应 。 一 般 而 言 ， 我 们 把 这 些 突变 称 为 异 
常 控制 流 〈Exceptional Control Flow，ECF)。 蜡 常 控制 流 发 生 在 计算 机 系统 的 各 个 层次 。 比 如 ， 
在 硬件 层 ， 硬 件 检测 到 的 事件 会 触发 控制 突然 转移 到 异常 处 理 程序 。 在 操作 系统 层 ， 内 核 通过 上 
下 文 转换 将 控制 从 一 个 用 户 进程 转移 到 另 一 个 用 户 进程 。 在 应 用 层 ， 一 个 进程 可 以 发 送信 号 到 另 
一 个 进程 ， 而 接收 者 会 将 控制 突然 转移 到 它 的 一 个 信号 处 理 程序 。 一 个 程序 可 以 通过 回避 通 各 的 
栈 规 则 ， 并 执行 到 其 他 函数 中 任意 位 置 的 非 本 地 跳 转 来 对 错误 做 出 反应 。 

作为 程序 员 ， 理 解 ECF 很 重要 ， 这 有 很 多 原因 : 

。 理 解 ECF 将 帮助 你 理解 重要 的 系统 概念 。ECF 是 操作 系统 用 来 实现 LO、 进程 和 虚拟 存储 

器 的 基本 机 制 。 在 能 够 真正 理解 这 些 重 要 概念 之 前 ， 你 必须 理解 ECF。 

理解 ECF 将 帮助 你 理解 应 用 程序 是 如 何 与 操作 系统 交互 的 。 应 用 程序 通过 使 用 一 个 叫做 陷 
阱 〈trap) 或 者 系统 调用 (system call) 的 ECF 形式 ， 向 操作 系统 请 求 服务 。 比 如 ， 癌 磁盘 
写 数 据 、 从 网 络 读 取 数 据 、 创 建 一 个 新 进程 ， 以 及 终止 当前 进程 ， 都 是 通过 应 用 程序 调用 
系统 调用 来 实现 的 。 理 解 基本 的 系统 调用 机 制 将 帮助 你 理解 是 如 何 向 应 用 提供 这 些 服 务 的 。 

。 理 解 ECF 将 帮助 你 编写 有 趣 的 新 应 用 程序 。 操 作 系统 为 应 用 程序 提供 了 强大 的 ECF 机 制 ， 

用 来 创建 新 进程 、 等 待 进程 终止 、 通 知 其 他 进程 系统 中 的 异常 事件 ， 以 及 检测 和 响应 这 些 
事件 。 如 果 你 理解 这 些 ECF 机 制 ， 那 么 你 就 能 用 它们 来 编写 诸如 Unix 外 壳 和 Web 服务 器 
之 类 的 有 趣 程序 了 。 

。 理 解 ECF 将 帮助 你 理解 并 发 。 ECF 是 计算 机 系统 中 实现 并 发 的 基本 机 制 。 中 断 应 用 程序 、 
进程 和 线程 (它们 的 执行 在 时 间 上 是 重 释 的 ) 执行 的 异常 处 理 程序 和 中 断 应 用 程序 执行 的 
信和 号 处 理 程 序 都 是 在 运行 中 的 并 发 的 例子 。 理 解 ECF 是 理解 并 发 的 第 一 步 。 我 们 会 在 第 
12 章 中 更 详细 地 研究 并 发 。 

。 理 解 ECF 将 帮助 你 理解 软件 异常 如 何 工 作 。 像 CH+ 和 Java 这 样 的 语言 通过 try、catch 以 及 

throw 语句 来 提供 软件 异常 机 制 。 软 件 异 常 允 许 程序 进行 非 本 地 跳 转 〈 违 反 通 常 的 调用 /返回 
栈 规则 的 跳 转 ) 来 响应 错误 情况 。 非 本 地 跳 转 是 一 种 应 用 层 ECF， 在 C 中 是 通过 setjmp 
和 longjmp 函数 提供 的 。 理 解 这 些 低级 函数 将 帮助 你 理解 高 级 软件 异常 如 何 得 以 实现 。 
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对 系统 的 学 习 ， 到 目前 为 止 你 已 经 了 解 了 应 用 是 如 何 与 硬件 交互 的 。 这 一 章 的 重要 性 在 于 你 
将 开始 学 习 应 用 是 如 何 与 操作 系统 交互 的 。 有 趣 的 是 ， 这 些 交 互 都 是 围绕 着 ECF 的 。 我 们 将 摘 
述 存在 于 一 个 计算 机 系统 中 所 有 层次 上 的 各 种 形式 的 ECF。 从 异常 开始 ， 异 党 位 于 硬件 和 操作 
系统 交界 的 部 分 。 我 们 还 会 讨论 系统 调用 ， 它 们 是 为 应 用 程序 提供 到 操作 系统 的 人 口 点 的 异常 。 
天 后 ， 我 们 会 提升 抽象 的 层次 ， 描 述 进程 和 信和 号， 它们 位 于 应 用 和 操作 系统 的 交界 之 处 。 最 后 ， 
我 们 将 讨论 非 本 地 跳 转 ， 这 是 ECF 的 一 种 应 用 层 形式 。 


异常 


异常 是 异常 控制 流 的 一 种 形式 ， 它 部 分 是 由 硬件 实现 的 一 部 分 是 由 操作 系统 实现 的 。 因 
为 它们 有 一 部 分 是 由 硬件 实现 的 ， 所 以 具体 细节 将 随 系统 的 不 同 而 有 所 不 同 。 然 而 ， 对 于 每 个 系 
统 而 言 ， 基 本 的 思想 都 是 相同 的 。 在 这 一 节 中 我 们 的 目的 是 让 你 对 异常 和 异常 处 理 有 一 个 一 般 性 
的 了 解 ， 并 且 向 你 揭示 现代 计算 机 系统 的 一 个 经 常 令 人 感到 迷惑 的 方面 。 

异常 〈exception) 就 是 控制 流 中 的 突变 ， 用 来 响应 处 理 器 状态 中 的 某 些 变 化 。 图 8-1 展示 了 
基本 的 思想 。 在 图 中 ， 当 处 理 器 状态 中 发 生 一 个 重要 的 变化 时 ， 处 理 器 正在 执行 某 个 当前 指令 
1um。 在 处 理 器 中 ， 状 态 被 编码 为 不 同 的 


位 和 信和 号。 状态 变化 称 为 事件 (event)。 让 Ee 
事件 可 能 和 当前 指令 的 执行 直接 相关 。 

比如 ， 发 生 虚 拟 存 储 器 起 页 、 算 术 溢 出 ， 部 fa 本 

或 者 一 条 指令 试图 除 以 零 。 另 一 方面 ， 里 发 生 Ee 异常 
事件 也 可 能 和 当前 指令 的 执行 没有 关系 。 处 理 
比如 ， 一 个 系统 定时 器 产生 信号 或 者 一 “. 


个 IO 请 求 完成 。 
在 任何 情况 下 ， 当 处 理 器 检测 到 有 事 
件 发 生 时 ， 它 就 会 通过 一 张 叫做 异常 表 ”图 8-1 异常 的 剖析 。 处 理 器 状态 中 的 变化 (事件 ) 触发 


(exception table》 的 跳 转 表 ， 进 行 一 个 间 从 应 用 程序 到 异常 处 理 程序 的 突 发 的 控制 转移 
接 过 程 调用 (异常 )， 到 一 个 专门 设计 用 (异常 )。 在 异常 处 理 程序 完成 处 理 后 ， 它 将 控制 
来 处 理 这 类 事件 的 操作 系统 子 程序 ( 异 返回 给 被 中 断 的 程序 或 者 终止 


常 处 理 程序 (exception handler ) ) 。 
当 有 异 和 处 理 程 序 完 成 处 理 后 ， 根 据 引 起 蜡 常 的 事件 的 类 型 ， 会 发 生 以 下 三 种 情况 中 的 一 种 : 
1) 处 理 程序 将 控制 返回 给 当前 指令 I,,， 即 当 事 件 发 生 时 正在 执行 的 指令 。 
2) 处 理 程序 将 控制 返回 给 I， 即 如 果 没 有 发 生 异 常 将 会 执行 的 下 一 条 指令 。 
3) 处 理 程序 终止 被 中 断 的 程序 。 
8.1.2 节 将 讲述 关于 这 些 可 能 性 的 更 多 内 容 。 


硬件 异常 与 软件 异常 有 

C++ 和 Java 的 程序 员 会 注意 到 术语 “异常 ”也 用 来 描述 由 C++ 和 Java 以 catch、throw 
和 try 语句 的 形式 提供 的 应 用 级 ECF。 如 果 想 完全 弄 清楚 ， 我 们 必须 区 别 “ 硬 件 ” 和 “软件 ” 
异常 ， 但 是 这 通常 是 不 必要 的 ， 因 为 从 上 下 文中 就 能 够 很 清楚 地 知道 是 哪 种 含义 。 
8.1.1 异常 处 理 

异常 可 能 会 难以 理解 ， 因 为 处 理 异 常 需要 硬件 和 软件 紧密 合作 。 很 容易 搞 混 哪个 部 分 执行 哪 


个 任务 。 让 我 们 更 详细 地 来 看 看 硬件 和 软件 的 分 工 吧 。 
” 系统 中 可 能 的 每 种 类 型 的 异常 都 分 配 了 一 个 唯一 的 非 负 整 数 的 异常 号 (exception number)。 
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其 中 一 些 号 码 是 由 处 理 器 的 设计 者 分 配 的 ， 其 他 号 码 是 由 操作 系统 内 核 (操作 系统 常 驻 存储 器 的 
部 分 ) 的 设计 者 分 配 的 。 前 者 的 示例 包括 被 零 除 、 缺 页 、 存 储 器 访问 违例 、 断 点 以 及 算术 洲 出 。 
后 者 的 示例 包括 系统 调用 和 来 自 外 部 IO 设备 的 信和 号 。 

在 系统 启动 时 〈 当 计算 机 重启 或 者 加 电 时 )， 操 作 系统 分 配 和 初始 化 一 张 称 为 异常 表 的 跳 转 
表 ， 使 得 条 目 包 含 异 常 £ 的 处 理 程序 的 地 址 。 图 8-2 展示 了 一 张 异常 表 的 格式 。 | 

在 运行 时 〈 当 系统 在 执行 某 个 程序 时 )， 处 理 -一 一 一 一 一 一 
器 检测 到 发 生 了 一 个 事件 ， 并 且 确 定 了 相应 的 蜡 民间 程序 0 的 代 到 
党 号 Xk。 随后 ， 人 处理 器 触发 异常 ， 方 法 是 执行 间接 ee 
过 程 调用 ， 通 过 异常 表 的 条 目 转 到 相应 的 处 理 程 
序 。 图 8-3 展示 了 处 理 器 如 何 使 用 异常 表 来 形成 适 
当 的 异常 处 理 程序 的 地 址 。 蜡 常 号 是 到 异常 表 中 . 
的 索引 ， 蜡 稼 表 的 起 始 地 址 放 在 一 个 叫做 异常 表 
基 址 寄存 器 〈exception table base register) 的 特殊 





同 之 处 。 目 上 包含 异常 上 的 处 理 程序 代码 的 地 址 
疝 | 异常 表 
0 | 
| 
异常 上 的 条 目的 地 址 人 
异常 表 基 址 寄存 器 由 1 


图 8-3 ”生成 异常 处 理 程 序 的 地 址 。 异 常 号 是 到 异常 表 中 的 索引 


。 过程 调用 时 ， 在 跳 转 到 处 理 程序 之 前 ， 处 理 器 将 返回 地 址 压 入 栈 中 。 然 而 ， 根 据 异 常 的 类 
型 ， 返 回 地 址 要 么 是 当前 指令 〈( 当 事件 发 生 时 正在 执行 的 指令 )， 要 么 是 下 一 条 指令 (如 
果 事 件 不 发 生 ， 将 会 在 当前 指令 后 执行 的 指令 )。 
。 处 理 器 也 把 一 些 额 外 的 处 理 器 状态 压 到 栈 里 ， 在 处 理 程 序 返 回 时 ， 重 新 开始 被 中 断 的 程序 
会 需要 这 些 状 态 。 比 如 ， 一 个 IA32 SI 当前 条 件 码 和 其 他 内 容 的 EFLAGS 寄存 器 
压 人 栈 中 。 
。 如果 控制 从 一 个 用 户 程序 转移 到 内 核 那么 所 有 这 些 项 i a 而 不 是 压 到 
用 户 栈 中 。 
。 异常 处 理 程序 运行 在 内 核 模式 下 〈 见 8.2.4 节 )， 这 意味 着 它们 对 所 有 的 系统 资源 都 有 完全 
的 访问 权限 。 
一 旦 硬件 触发 了 异常 ， 剩 下 的 工作 就 是 由 异常 处 理 程 序 在 软件 中 完成 。 在 处 理 程序 处 理 完事 件 之 
后 ， 它 通过 执行 一 条 特殊 的 “从 中 断 返 回 ” 指 令 ， 可 选 地 返回 到 被 中 断 的 程序 ， 该 指令 将 适当 的 
状态 弹 回 到 处 理 器 的 控制 和 数据 寄存 器 中 ， 如 果 异 常 中 断 的 是 一 个 用 户 程序 ， 就 将 状态 恢复 为 用 
户 模式 〈 见 8.2.4 市 )， 然后 将 控制 返回 给 被 中 断 的 程序 。 
8.1.2 异常 的 类 别 
异常 可 以 分 为 四 类 : 中 断 (interrupt)、 陷 阱 (trap)、 故 障 (fault) 和 终止 (abort)。 图 8-4 
中 的 表 对 这 些 类 别 的 属性 做 了 小 结 。 
1. 中 断 
中 断 是 异步 发 生 的 ， 是 来 自 处 理 器 外 部 的 IO 设备 的 信号 的 结果 。 硬 件 中 斯 不 是 由 任何 一 条 
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专门 的 指令 造成 的 ， 从 这 个 意义 上 来 说 它 是 异步 的 。 硬 件 中 断 的 异常 处 理 程序 通常 称 为 中 断 处 理 
程序 (interrupt handler )。 


| 类别 | 原因 | 异步 /同步 |  _ 返回 行为 | 
”中断 ”| 来 自 WO 设 备 的 信号 | 异步 | 总 是 返回 到 下 一 条 指令 | 
陷阱 | 有 意 的 异常 。 | 同步 | 总 是 返回 到 下 一 条 指令 | 
故障 ”| 潜在 可 恢复 的 错误 ”| 同步。 | 可 能 返回 到 当前 指令 
|。 终止 | 不 可 恢复 的 错误 | 同步 | 不 会 


8-4 ”异常 的 类 别 。 异 步 异常 是 由 处 理 器 外 部 的 IO 设备 中 的 事件 产生 的 ， 同 步 异 常 是 执行 一 条 指令 
的 直接 产物 


图 8-5 概述 了 一 个 中 断 的 处 理 。LO 设备 ， 例 如 网 络 适配器 、 磁 盘 控 制 器 和 定时 器 心 片 ， 通 
过 向 处 理 器 芯片 上 的 一 个 引 脚 发 信号 ， 并 将 异常 号 放 到 系统 总 线 上 ， 以 触发 中 断 ， 这 个 异常 号 标 


















识 了 引起 中 断 的 设备 。 
在 当前 指令 完成 执行 之 后 ， 
外 大福 间 到 中 站 有 的 电压 。。 wgp。 。 | 2 
高 了 ， 就 从 系统 总 线 读 取 异 常 ”的 执行 过 程 中 ， 中 本 人 
号 ， 然 后 调用 适当 的 中 断 处 理 程 ” 断 引 脚 电压 变 高 了 “"™ 理 程序 运行 


序 。 当 处 理 程序 返回 时 ， 它 就 将 
控制 返回 给 下 一 条 指令 〈 即 如 果 
没有 发 生 中 断 ， 在 控制 流 中 会 在 
当前 指令 之 后 的 那 条 指令 )。 结 图 8. 
ne ee 图 8-5 a te 
发 生 过 中 断 一 样 。 

剩 下 的 异常 类 型 (陷阱 、 故 障 和 终止 是 同步 发 生 的 ， 是 执行 当前 指令 的 结果 。 我 们 把 这 类 
指令 叫做 故障 指令 faulting instruction)。 

2. 陷阱 和 系统 调用 

陷阱 是 有 总 的 异常 ， 是 执行 一 条 指令 的 结果 。 就 像 中 断 处 理 程序 一 样 ， 陷 阱 处 理 程序 将 控制 
返回 到 下 一 条 指令 。 陷 阱 最 重要 的 用 途 是 在 用 户 程序 和 内 核 之 间 提 供 一 个 像 过 程 一 样 的 接口 ， 叫 
做 系统 调用 。 

用 户 程序 经 常 需 要 向 内 核 请 求 服务 ， 比 如 读 一 个 文件 (read)、 创 建 一 个 新 的 进程 
(fork)、 加 载 一 个 新 的 程序 (execve)， 或 者 终止 当前 进程 (exit)。 为 了 允许 对 这 些 内 核 服 
务 的 受 控 的 访问 ， 处 理 器 提供 了 一 条 特殊 的 “syscall n” 指 令 ， 当 用 户 程序 想 要 请 求 服务 
时 ， 可 以 执行 这 条 指令 。 执 行 syscall 指令 会 导致 一 个 到 异常 处 理 程序 的 陷阱 ， 这 个 处 理 程 序 
对 参数 解码 ， 并 调用 适当 的 内 核 
程序 。 图 8-6 概述 了 一 个 系统 调 
用 的 处 理 。 从 程序 员 的 角度 来 看 ， ee 
系统 调用 和 普通 的 函数 调用 是 一 ”应 于 要 有 
样 的 。 然 而 ， 它 们 的 实现 是 非常 “ 统 调用 
不 同 的 。 普 通 的 函数 运行 在 用 户 
模式 (user mode) 中 ， 用 户 模式 
限制 了 函数 可 以 执行 的 指令 的 类 图 8-6 陷阱 处 理 。 陷 阱 处 理 程 序 将 控制 返回 给 应 用 程序 控制 流 中 
型 ， 而 且 它们 只 能 访问 与 调用 函 的 下 一 条 指令 


(4 ) 处 理 程序 返回 
到 下 一 条 指令 







(2) 控制 传递 给 处 理 程序 


(3 ) 陷阱 处 
理 程序 运行 





(4) 处 理 程序 返回 到 
syscal1 之 后 的 指令 
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数 相同 的 栈 。 系 统 调用 运行 在 内 核 模式 〈kernel mode) 中 ， 内 核 模 式 允 许 系统 调用 执行 指令 ， 并 
访问 定义 在 内 核 中 的 栈 。8.2.4 节 会 更 详细 地 讨论 用 户 模 式 和 内 核 模 式 。 

3. 故障 

故障 由 错误 情况 引起 ， 它 可 能 能 够 被 故障 处 理 程序 修正 。 当 故障 发 生 时 ， 处 理 器 将 控制 转移 
给 故障 处 理 程序 。 如 果 处 理 程序 能 够 修正 这 个 错误 情况 ， 它 就 将 控制 返回 到 引起 故障 的 指令 ， 从 
而 重新 执行 它 。 和 否则 ， 处 理 程序 返回 到 内 核 中 的 abort 例 程 ，abort 例 程 会 终止 引起 故障 的 应 
用 程序 。 图 8-7 概述 了 一 个 故障 的 处 理 。 







(1 ) 当前 指令 0， 水 (2 ) 控制 传递 给 处 理 程序 
导致 一 个 故障 


(3 ) 故障 处 
理 程序 运行 


(4 ) 处 理 程序 要 么 重新 
执行 指令 ， 要么 终止 
图 8-7 故障 处 理 。 根 据 故 障 是 否 能 够 被 修复 ， 故 障 处 理 程序 要 么 重新 执行 引起 故障 的 指令 ， 要 么 终止 


一 个 经 典 的 故障 示例 是 缺 页 异常 ， 当 指令 引用 一 个 虚拟 地 址 ， 而 与 该 地 址 相对 应 的 物理 页 面 
不 在 存储 器 中 ， 因 此 必须 从 磁盘 中 取出 时 ， 就 会 发 生 故障 。 就 像 我 们 将 在 第 9 章 中 看 到 的 那样 、 
一 个 页 面 就 是 虚拟 存储 器 的 一 个 连续 的 块 ( 典 型 的 是 4KB)。 缺 页 处 理 程序 从 磁盘 加 载 适当 的 页 
面 ， 然 后 将 控制 返回 给 引起 故障 的 指令 。 当 指令 再 次 执行 时 ， 相 应 的 物理 页 面 已 经 驻 留 在 存储 器 
中 了 ， 指 令 就 可 以 没有 故障 地 运行 完成 了 。 

4. 终止 

作 止 是 不 可 恢复 的 致命 错误 造成 的 结果 ， 通 常 是 一 些 硬件 错误 ， 比 如 DRAM 或 者 SRAM 位 
被 损坏 时 发 生 的 奇偶 错误 。 终 止 处 理 程序 从 不 将 控制 返回 给 应 用 程序 。 如 图 8-8 所 示 ， 处 理 程序 
将 控制 返回 给 一 个 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 。 





(2 ) 传递 控制 给 处 理 程序 





(1) 发 生 致命 了 


的 硬件 错误 (3 ) 终止 处 
理 程序 运行 
CP bort 
(4) 处 理 程序 返回 到 


”abort 例 程 
图 8-8 ”终止 处 理 。 终止 处 理 程序 将 控制 传递 给 一 个 内 核 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 


8.1.3 LinuX/IA32 系统 中 的 异常 

为 了 使 描述 更 具体 ， 让 我 们 来 看 看 为 IA32 系统 定义 的 一 些 异 常 。 有 高 达 256 种 不 同 的 异常 
类 型 [27].0 一 31 的 号 码 对 应 的 是 由 Intel 架构 师 定 义 的 异常 ， 因 此 对 任何 IA32 系统 都 是 一 样 的 。 
32 一 255 的 号 码 对 应 的 是 操作 系统 定义 的 中 断 和 陷阱 。 图 8-9 展示 了 一 些 示例 。 

1. LinuX/IA32 故障 和 终止 

除法 错误 。 当 应 用 试图 除 以 零 时 ， 或 者 当 一 个 除法 指令 的 结果 对 于 目 标 操作 数 来 说 太 大 了 
的 时 候 ， 就 会 发 生 除 法 错误 〈 蜡 常 0)。Unix 不 会 试图 从 除法 错误 中 恢复 ， 而 是 选择 中 止 程序 。 
Linux 外 壳 通 常会 把 除法 错误 报告 为 “ 浮 点 异常 ”(EFloating exception ) 。 
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RR | | 
EO 
EE -RPR | | 
EC 
WR A Wat 





图 8-9 IA32 系统 中 的 异常 示例 


一 般 保护 故障 。 许 多 原因 都 会 导致 不 为 人 知 的 一 般 保 护 故 障 〈( 异 常 13)， i 
序 引 用 了 一 个 未 定义 的 虚拟 存储 器 区 域 ， 或 者 因为 程序 试图 写 一 个 只 读 的 文本 段 。Linux 不 会 
试 恢复 这 类 故障 。Linux 外 过 通常 会 把 这 种 一 般 保 护 故 障 报告 为 “ 段 故障 ”(Segmentation Ro 

缺 页 〈 蜡 常 14) 是 会 重新 执行 产生 故障 的 指令 的 一 个 异常 示例 。 处 理 程序 将 磁盘 上 物理 在 
储 器 相应 的 页 面 映射 到 虚拟 存储 器 的 一 个 页 面 ， 然 后 重新 开始 这 条 产生 故障 的 指令 。 我 们 将 在 第 
9 章 中 看 到 缺 页 是 如 何 工作 的 细节 。 

机 器 检查 。 机 器 检查 〈 异 稼 18) 是 在 导致 故障 的 指令 执行 中 检测 到 致命 的 硬件 错误 时 发 生 
的 。 机 器 检查 处 理 程序 从 不 返回 控制 给 应 用 程序 。 

2. Linux/IA32 系统 调用 

Linux 提供 上 百 种 系统 调用 ， 当 应 用 程序 想 要 请 求 内 核 服务 时 可 以 使 用 ， 包括 读 文 件 、 写 文 
件 或 是 创建 一 个 新 进程 。 图 8-10 给 出 了 一 些 常 见 的 Linux 系统 调用 。 每 个 系统 调用 都 有 一 个 唯 
一 的 整数 号 ， 对 应 于 一 个 到 内 核 中 跳 转 表 的 偏 移 量 。 


| 编 | 和 名字 | 搓 术 | 


en MR | | | ERSNES 
EE | 站 eaeeasas | 











二 ， 


TS 
ET 
am xmf 
EE 
| | 105 | woe | 区 及 的 信息 


图 8-10 ”Linux/IA32 系统 中 常用 的 系统 调用 示例 。Linux 提供 上 百 种 系 统 调用 。 | 
syscall.h 


在 IA32 系统 上 ， 系 统 调用 是 通过 一 条 称 为 int n 的 陷阱 指令 来 提供 的 ， 其 中 可 能 是 IA32 
异常 表 中 256 个 条 目 中 任何 一 个 的 索引 。 在 历史 上 ， 系 统 调用 是 通过 异常 128 (0x80) 提供 的 。 

C 程序 用 syscall 函数 可 以 直接 调用 任何 系统 调用 。 然 而 ， 实 际 中 几乎 没 必要 这 人 么 做 。 对 
于 大 多 数 系统 调用 ， 标 准 C 库 提供 了 一 组 方便 的 包装 函数 。 这 些 包装 函数 将 参数 打包 到 一 起 ， 
以 适当 的 系统 调用 号 陷入 内 核 ， 然 后 将 系统 调用 的 返回 状态 传递 回调 用 程序 。 在 本 书 全 文中 ， 我 
们 将 系统 调用 和 与 它们 相关 联 的 包装 函数 称 为 系统 级 函数 ， 这 两 个 术语 可 以 互 换 地 使 用 。 
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研究 程序 能 够 如 何 使 用 int 指令 来 直接 调用 Linux 系统 调用 是 很 有 趣 的 。 所 有 的 到 Linux 
系统 调用 的 参数 都 是 通过 通用 寄存 器 而 不 是 栈 传递 的 。 按 照 惯 例 ， 寄 存 器 $eax 包含 系统 调用 
号 ， 寄 存 器 Sebx、%ecx、%Sedx、%Sesi、%edi 和 %ebp 包含 最 多 六 个 任意 的 参数 。 栈 指针 $esp 
不 能 使 用 ， 因 为 当 进入 内 核 模 式 时 ， 内 核 会 覆盖 它 。 

例如 ， 考 虑 大 家 熟悉 的 hello 程序 的 下 面 这 个 版 本 ， 是 用 系统 级 函数 write 来 写 的 : 


int main() 


{ 


exit(0); 


} 


1 
3 write(1l, "hello, world\n", 13); 
4 

5 


write 函数 的 第 一 个 参数 将 输出 发 送 到 stdout。 第 二 个 参数 是 要 写 的 字 节 序列 ， 而 第 三 
个 参数 是 要 写 的 字 节 数 。 

图 8-11 给 出 的 是 hello 程序 的 汇编 语言 版 本 ， 直 接 使 用 int 指令 来 调用 write 和 exit 
系统 调用 。 第 9 ~ 13 行 调 用 write 函数 。 首 先 ， 第 9 行将 系统 调用 write 的 编号 存放 在 seax 
中 ， 第 10 ~ 12 行 设置 参数 列表 。 然 后 第 13 行使 用 int 指令 来 调用 系统 调用 。 类 似 地 ， 第 
14 ~ 16 行 调用 exit 系统 调用 。 


code/ecf/hello-asm.sa 

1 .Section .data 
2 string: 
3 .ascii "hello, world\n" 
4 string_end.: 
和 .equ len, string_end - string 
6 .Section .text 
7 .globl main 
8 main: 

First, caill write(1, hello, worid\n", 13) 
9 movl1 $4, %eax System call number 4 
10 movl] $1, %ebx stdout has descriptor 1 
11 movil $string, Wecx Hello world string 
12 movl $len, %edx String length 
13 int $0x80 System call code 

Next, call exit (0) 
14 movl $1, %eax System call nunber 0 
15 mov] $0, %ebx Argument is 0 
16 int $0Ox80 Svstem call Code 

code/ecf/hello-asm.sa 
图 8-11 直接 用 Linux 系统 调用 来 实现 hello 程序 
关于 术语 的 注释 


备 种 异常 类 型 的 本 语 是 根据 系统 的 不 同 而 有 所 不 同 的 。 处 理 器 宏 体 系 结构 (macroarchitecture) 
规范 通 第 会 区 分 异步 的 “中 断 ” 和 同步 的 “ 异 第 "， 但 是 并 没有 提供 描述 这 些 非 常 相 似 的 概念 的 
概括 性 的 本 语 。 为 了 避免 不 断 地 提 到 “异常 和 中 断 ” 以 及 “异常 或 者 中 断 "， 我 们 用 单词 “异常 ” 
作为 通用 的 术语 ， 而 且 只 有 在 必要 时 才 区 别 异 步 异常 《中 断 ) 和 同步 异常 《陷阱 、 故 障 和 终止 )。 
正如 我 们 提 到 过 的 ， 对 于 每 个 系统 而 言 ， 基 本 的 概念 都 是 相同 的 ， 但 是 你 应 该 意识 到 一 些 制造 厂 
商 的 手册 会 用 “异常 ”仅仅 表示 同步 事件 引起 的 控制 流 的 改变 。 
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8.2 ”进程 


异常 是 允许 操作 系统 提供 进程 process) 的 概念 所 需要 的 基本 构造 块 ， 进 程 是 计算 机 科学 中 
最 深刻 最 成 功 的 概念 之 一 。 

当 我 们 在 一 个 现代 系统 上 运行 一 个 程序 时 ， 会 得 到 一 个 假象 ， 就 好 像 我 们 的 程序 是 系统 中 当 
前 运行 着 的 唯一 的 程序 。 我 们 的 程序 好 像 是 独占 地 使 用 处 理 器 和 存储 器 。 处 理 器 就 好 像 是 无 间 断 
地 一 条 接 一 条 地 执行 程序 中 的 指令 。 最 后 ， 我 们 程序 中 的 代码 和 数据 好 像 是 系统 存储 器 中 唯一 的 
对 象 。 这 些 假象 都 是 通过 进程 的 概念 提供 给 我 们 的 。 

进程 的 经 典 定义 就 是 一 个 执行 中 的 程序 的 实例 。 系 统 中 的 每 个 程序 都 是 运行 在 某 个 进程 的 上 
下 文 (context) 中 的 。 上 下 文 是 由 程序 正确 运行 所 需 的 状态 组 成 的 。 这 个 状态 包括 存放 在 存储 器 
中 的 程序 的 代码 和 数据 ， 它 的 栈 、 通 用 目的 寄存 器 的 内 容 、 程 序 计数 器 、 环 境 变量 以 及 打开 文件 
描述 符 的 集合 。 

每 次 用 户 通过 向 外 过 输入 一 个 可 执行 目标 文件 的 名 字 ， 并 运行 一 个 程序 时 ， 外 过 就 会 创建 一 
个 新 的 进程 ， 然 后 在 这 个 新 进程 的 上 下 文中 运行 这 个 可 执行 目标 文件 。 应 用 程序 也 能 够 创建 新 进 
程 ， 且 在 这 个 新 进程 的 上 下 文中 运行 它们 自己 的 代码 或 其 他 应 用 程序 。 

关于 操作 系统 如 何 实现 进程 的 细节 的 讨论 超出 了 本 书 的 范围 。 反 之 ， 我 们 将 关注 进程 提供 给 
应 用 程序 的 关键 抽象 ， 

一 个 独立 的 逻辑 控制 流 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 处 理 器 。 

. 一 个 私有 的 地 址 空间 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 存储 器 系统 。 
让 我 们 更 深入 地 看 看 这 些 抽 象 。 
8.2.1 逻辑 控制 流 

即使 在 系统 中 通常 有 许多 其 他 程序 在 运行 ， 进 程 也 可 以 向 每 个 程序 提供 一 种 假象 ， 好 像 它 在 
独占 地 使 用 处 理 器 。 如 果 想 用 调试 器 单 步 执行 程序 ， 我 们 会 看 到 一 系列 的 程序 计数 器 (PC) 的 
值 ， 这 些 值 唯一 地 对 应 于 包含 在 程序 的 可 执行 目标 文件 中 的 指令 ， 或 者 是 包含 在 运行 时 动态 链接 
到 程序 的 共享 对 象 中 的 指令 。 这 个 PC 值 的 序列 叫做 运 辑 控 制 流 ， 或 者 简称 逻辑 流 。 

考虑 一 个 运行 着 三 个 进程 的 系统 ， 如 图 8-12 所 示 。 处 理 器 的 一 个 物理 控制 流 分 成 了 三 个 逻 
辑 流 ， 每 个 进程 一 个 。 每 个 紧 直 的 条 表示 一 个 进程 的 逻辑 流 的 一 部 分 。 在 这 个 例子 中 ， 三 个 逻辑 
流 的 执行 是 交错 的 。 进 程 A 运行 了 一 会 儿 ， 然 后 是 进程 B 开始 运行 到 完成 。 然 后 ， 进 程 C 运行 
了 一 会 儿 ， 进 程 A 接着 运行 直到 完成 。 最 后 ， 进 程 C 可 以 运行 到 结束 了 。 

图 8-12 的 关键 点 在 于 进程 是 轮流 使 用 处 


理 器 的 。 每 个 进程 执行 它 的 流 的 一 部 分 ， 然 -一 Se NN 
后 被 抢占 (preempted) (暂时 挂 起 )， 然 后 轮 | ----*-----------f---------------- 
到 其 他 进程 。 对 于 一 个 运行 在 这 些 进程 之 一 | | 
的 上 下 文中 的 程序 ， 它 看 上 去 就 像 是 在 独占 时 间 | - 人 | 
地 使 用 处 理 器 。 唯 一 的 反面 例证 是 ， 如 果 我 

们 精确 地 测量 每 条 指令 使 用 的 时 间 ， 会 发 现 | 。 ---- 上 --------------------- ee 


在 程序 中 一 些 指令 的 执行 之 间 ，CPU 好 像 会 
周期 性 地 停顿 。 然 而 ， 每 次 处 理 器 停顿 ， 它 图 8-12 逻辑 控制 流 。 进 程 为 每 个 程序 提供 了 一 种 假 


随后 继续 执行 我 们 的 程序 ， 并 不 改变 程序 存 象 ， 好 像 程序 在 独占 地 使 用 处 理 器 。 每 个 竖 
储 器 位 置 或 寄存 器 的 内 容 。 直 的 条 表示 一 个 进程 的 逻辑 控制 流 的 一 部 分 
8.2.2 并 发 流 


计算 机 系统 中 逻辑 流 有 许多 不 同 的 形式 。 异 常 处 理 程序 、 进 程 、 信 号 处 理 程 序 、 线 程 和 Java 
进程 都 是 逻辑 流 的 例子 。 
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一 个 逻辑 流 的 执行 在 时 间 上 与 男 一 个 流 重生 ， 称 为 并 发 流 〈concurrent low)， 这 两 个 流 被 称 
为 并 发 地 运行 。 更 准确 地 说 ， 流 XX 和 YY 互相 并 发 ， 当 且 仅 当 X 在 Y 开始 之 后 和 YY 结束 之 前 开始 ， 
或 者 Y 在 X 开 始 之 后 和 和 结束 之 前 开始 。 例 如 ， 在 图 8-12 中 ， 进 程 A 和 B 并 发 地 运行 , A 和 C 
也 一 样 。 另 一 方面 ，B 和 C 没有 并 发 地 运行 ， 因 为 了 的 最 后 一 条 指令 在 C 的 第 一 条 指令 之 前 执行 。 

多 个 流 并 发 地 执行 的 一 般 现 象 称 为 并 发 〈concurrency)。 一 个 进程 和 其 他 进程 轮流 运行 的 
概念 称 为 多 任务 (mnultitasking)。 一 个 进程 执行 它 的 控制 流 的 一 部 分 的 每 一 -时间 段 叫做 时 间 片 
(time slice)。 因 此 ， 多 任务 也 叫做 时 间 分 上 Chime slicing)。 例 如 ， 在 图 8-12 中 ， 进 程 A 的 流 由 
两 个 时 间 片 组 成 。 | 

注意 ， 并 发 的 思想 与 流 运行 的 处 理 器 核 数 或 者 计算 机 数 无 关 。 如 果 两 个 流 在 时 间 上 重 羡 ， 那 
么 它们 就 是 并 发 的 ， 即 使 它们 是 运行 在 同一 个 处 理 器 上 的 。 然 而 ， 有 时 我 们 会 发 现 确认 并 行 流 是 
很 有 帮助 的 ， 它 是 并 发 流 的 一 个 真子 集 。 如 果 两 个 流 并 发 地 运行 在 不 同 的 处 理 器 核 或 者 计算 机 
上 ， 那 么 我 们 称 它们 为 并 行 流 (parallel fow)， 它 们 并 行 地 运行 (munning i in paralle1)， 且 并 行 地 
执行 ps oun 





8.2.3 ”私有 地 址 空间 
”进程 也 为 每 个 程序 提供 一 种 假象 ， 好 像 它 攻占 地 使 用 系统 地 址 空间 。 在 一 台 有 n 位 地 址 的 机 
器 上 ， 地 址 空间 是 2 个 可 能 地 址 的 集合 ，0，1，…，2 一 1。 一 个 进程 为 每 个 程序 提供 它 目 己 的 


私有 地 址 空间 。 一 般 而 言 ， 和 这 个 空间 中 某 个 地 址 相关 联 的 那个 存储 器 字 节 是 不 能 被 其 他 进程 读 
或 者 写 的 ， 从 这 个 意义 上 说 ， 这 个 地 址 空间 是 私有 的 。 

尽管 和 每 个 私有 地 址 空间 相关 联 的 存储 器 的 内 容 一 般 是 不 同 的 ， 但 是 每 个 这 样 的 空 s 间 都 有 相 
同 的 通用 结构 。 比 如 ， 图 8-13 展示 了 一 个 x86 Linux 进程 的 地 址 空间 的 组 织 结 构 。 地 址 空间 底部 
是 保留 给 用 户 程 序 的 ， 包 括 通常 的 文本 、 数 据 、 堆 和 栈 段 。 对 于 32 位 进程 来 说 ， 代 码 段 从 地 址 
0x08048000 开始 ， 对 于 64 位 进程 来 说 ， 代 码 段 从 地 址 0x00400000 开始 。 地 址 空间 顶部 是 
保留 给 内 核 的 。 地 址 空间 的 这 个 部 分 包含 内 核 在 代表 进程 执行 指令 时 比如 ， 当 应 用 程序 执行 一 
个 系统 调用 时 ) 使 用 的 代码 、 数 据 和 栈 。 

8.2.4 用 户 模式 和 内 核 模 式 
为 了 使 操作 系统 内 核 提供 一 个 无 懈 可 击 的 进程 抽象 处 理 器 必须 提供 一 种 机 制 ， 限制 一 个 应 
用 可 以 执行 的 指令 以 及 它 可 以 访问 的 地 址 空间 范围 。 

处 理 器 通常 是 用 某 个 控制 寄存 器 中 的 一 个 模式 位 (mode bit) 来 提供 这 种 功能 的 ， 该 寄存 器 
描述 了 进程 当前 享有 的 特权 。 当 设置 了 模式 位 时 ， 进 程 就 运行 在 内 核 模 式 中 〈 有 时 岂 做 超级 用 户 
模式 )。 一 个 运行 在 内 核 模式 的 进程 可 以 执行 指令 集中 的 任何 推 令 ， 并 且 可 以 访问 系统 中 任何 存 
储 器 位 置 。 
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肖 核 虚拟 存储 器 


1 代码、 数据 、 堆 、 用 记 代 不 可 


人 
二 | + 一 sesp ( 栈 指 针 ) 


从 可 执行 
文件 加 载 的 


0x08048000 (32) 
0x00400000 (64) 


图 8-13 ”进程 地 址 空 s 间 


没有 设置 模式 位 时 ， 进 程 就 运行 在 用 户 模式 中 。 用 户 模式 中 的 进程 不 允许 执行 特权 指令 
(privileged instruction)， 比 如 停止 处 理 器 、 改 变 模式 位 ， 或 者 发 起 一 个 IO 操作 。 也 不 允许 用 户 
模式 中 的 进程 直接 引用 地 址 空间 中 内 核 区 内 的 代码 和 数据 。 任 何 这 样 的 尝试 都 会 导致 致命 的 保护 
故障 。 反 之 ， 用 户 程序 必须 通过 系统 调用 接口 间接 地 访问 内 核 代码 和 数据 。 

运行 应 用 程序 代码 的 进程 初始 时 是 在 用 户 模 式 中 的 。 进 程 从 用 户 模 式 变 为 内 核 模式 的 唯一 方 
法 是 通过 诸如 中 断 、 故 障 或 者 陷入 系统 调用 这 样 的 异常 。 当 异常 发 生 时 ， 控 制 传递 到 异常 处 理 程 
序 ， 处 理 器 将 模式 从 用 户 模式 变 为 内 核 模式 。 处 理 程序 运行 在 内 核 模 式 中 ， 当 它 返 回 到 应 用 程序 
代码 时 ， 处 理 器 就 把 模式 从 内 核 模式 改 回 到 用 户 模 式 。 

Linux 提供 了 一 种 聪明 的 机 制 ， 叫 做 /proc 文件 系统 ， 它 允许 用 户 模式 进程 访问 内 核 数 
据 结构 的 内 容 。/proc 文件 系统 将 许多 内 核 数 据 结构 的 内 容 输 出 为 一 个 用 户 程序 可 以 读 的 文 
本 文件 的 层次 结构 。 比 如 ， 你 可 以 使 用 /proc 文件 系统 找 出 一 般 的 系统 属性 ， 如 CPU 类 型 
(/proc/cpuinfo), 或 者 某 个 特殊 的 进程 使 用 的 存储 器 段 (/proc/<process id>/maps )。 
2.6 版 本 的 Linux 内 核 引入 /sys 文件 系统 ， 它 输出 关于 系统 总 线 和 设备 的 额外 的 低层 信息 。 
8.2.5 上下文 切换 

操作 系统 内 核 使 用 一 种 称 为 上 下 文 切 换 〈context switch) 的 较 高 层 形式 的 异常 控制 流 来 实现 
多 任务 。 上 下 文 切换 机 制 是 建立 在 8.1 节 中 已 经 讨论 过 的 那些 较 低 层 异 常 机 制 之 上 的 。 

内 核 为 每 个 进程 维持 一 个 上 下 文 〈context)。 上 下 文 就 是 内 核 重 新 启动 一 个 被 抢占 的 进程 所 
需 的 状态 。 它 由 一 些 对 象 的 值 组 成 ， 这 些 对 象 包括 通用 目的 寄存 器 、 浮 点 寄存 器 、 程 序 计 数 器 、 
用 户 栈 、 状 态 寄 存 器 、 内 核 栈 和 各 种 内 核 数 据 结构 ， 比 如 描绘 地 址 空间 的 页 表 、 包 含有 关 当 前 进 
程 信息 的 进程 表 ， 以 及 包含 进程 已 打开 文件 的 信息 的 文件 表 。 
”在 进程 执行 的 某 些 时 刻 ， 内 核 可 以 决定 抢占 当前 进程 ， 并 重新 开始 一 个 先前 被 抢占 的 进 
程 。 这 种 决定 就 叫做 调度 〈schedule)， 是 由 内 核 中 称 为 调度 器 〈scheduler) 的 代码 处 理 的 。 当 
内 核 选择 一 个 新 的 进程 运行 时 ， 我 们 就 说 内 核 调度 了 这 个 进程 。 在 内 核 调 度 了 一 个 新 的 进程 运 
行 后 ， 它 就 抢占 当前 进程 ， 并 使 用 一 种 称 为 上 下 文 切 换 的 机 制 来 将 控制 转移 到 新 的 进程 ， 上 下 . 
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文 切 换 1) 保存 当前 进程 的 上 下 文 ，2) 恢复 某 个 先前 被 抢占 的 进程 被 保存 的 上 下 文 ，3) 将 控 
制 传递 给 这 个 新 恢复 的 进程 。 

当 内 核 代表 用 户 执 行 系统 调用 时 ， 可 能 会 发 生 上 下 文 切换 。 如 果 系 统 调用 因为 等 待 某 个 事件 
发 生 而 阻塞 ， 那 么 内 核 可 以 让 当前 进程 休眠 ， 切 换 到 另 一 个 进程 。 比 如 ， 如 果 一 个 read 系统 调 
用 请 求 一 个 磁盘 访问 ， 内 核 可 以 选择 执行 上 下 文 切换 ， 运 行 男 外 一 个 进程 ， 而 不 是 等 待 数 据 从 磁 
盘 到 达 。 另 一 个 示例 是 sleep 系统 调用 ， 它 显 式 地 请 求 让 调用 进程 休眠 。 一 般 而 言 ， 即 使 系统 
调用 没有 阻塞 ， 内 核 也 可 以 决定 执行 上 下 文 切 换 ， 而 不 是 将 控制 返回 给 调用 进程 。 

中 断 也 可 能 引发 上 下 文 切换 。 比 如 ， 所 有 的 系统 都 有 某 种 产生 周期 性 定时 器 中 断 的 机 制 ， 典 
型 的 为 每 1 毫秒 或 每 10 毫秒 。 每 次 发 生 定时 器 中 断 时 ， 内 核 就 能 判定 当前 进程 已 经 运行 了 足够 
长 的 时 间 了 ， 并 切换 到 一 个 新 的 进程 。 

图 8-14 展示 了 一 对 进程 A 和 B 之 间 上 下 文 切换 的 示例 。 在 这 个 例子 中 ， 初 始 地 ， 进 程 A 运 
行 在 用 户 模式 中 ， 直 到 它 通过 执行 系统 调用 read 陷 人 到 内 核 。 内 核 中 的 陷阱 处 理 程序 请 求 来 自 
磁盘 控制 器 的 DMA 传输， 并且 安排 在 磁盘 控制 器 完成 从 磁盘 到 存储 器 的 数据 传输 后 ， 磁 盘 中 断 
处 理 器 。 





时 间 进程 A ”'! ”进程 B z 
| 用 户 模式 
reaqd ……… > 
内 核 模式 } 上 下 文 切 换 
磁盘 中 断 ……> 用 户 模式 
人 内 核 模式 上 
用 户 模式 


图 8-14 进程 上 下 文 切换 的 剖析 


磁盘 取 数 据 要 用 一 段 相 对 较 长 的 时 间 (数量 级 为 几 十 毫秒 )， 所 以 内 核 执行 从 进程 A 到 进程 
B 的 上 下 文 切换 ， 而 不 是 在 这 个 间 软 时 间 内 等 待 ， 什 么 都 不 做 。 注 意 在 切换 之 前 ， 内 核 正 代表 进 
程 A 在 用 户 模式 下 执行 指令 。 在 切换 的 第 一 部 分 中 ， 内 核 代表 进程 A 在 内 核 模式 下 执行 指令 。 
然后 在 某 一 时 刻 ， 它 开始 代表 进程 B (仍然 是 内 核 模 式 下 ) 执行 指令 。 在 切换 之 后 ， 内 核 代表 进 
程 B 在 用 户 模式 下 执行 指令 。 

随后 ， 进 程 B 在 用 户 模式 下 运行 一 会 儿 ， 直 到 磁盘 发 出 一 个 中 断 信号 ， 表 示 数 据 已 经 从 磁 
盘 传送 到 了 存储 器 。 内 核 判 定 进程 B 已 经 运行 了 足够 长 的 时 间 了 ， 就 执行 一 个 从 进程 B 到 进程 
A 的 上 下 文 切换 ， 将 控制 返回 给 进程 A 中 紧 随 在 系统 调用 read 之 后 的 那 条 指令 。 进 程 A 继续 
运行 ， 直 到 下 一 次 异常 发 生 ， 依 此 类 推 。 


高 速 缓存 污染 〈pollution ) 和 异常 控制 流 

一 般 而 言 ， 硬 件 高 速 缓存 存储 器 不 能 和 诸如 中 断 和 上 下 文 切 换 这 样 的 异常 控制 流 很 好 地 交 
互 。 如 果 妆 前 进程 被 一 个 中 断 暂 时 中 断 ， 那 么 对 于 中 断 处理 程 序 来 说 高 速 缓存 是 冷 的 〈cold) 
( 译 者 注 :“ 高 速 缓存 是 冷 的 ”总 思 是 程序 所 需要 的 数据 都 不 在 高 速 缓存 中 )。 如 果 处 理 程序 从 
主 丰 中 访问 了 足够 多 的 表 项 ， 那 么 当 被 中 断 的 进程 继续 时 ， 高 速 缓存 对 它 来 说 也 是 冷 的 了 。 在 
这 种 情况 下 ， 我 们 就 说 中 断 处 理 程 序 污染 (pollute) 了 高 速 缓存 。 使 用 上 下 文 切换 也 会 发 生 类 
似 的 现象 。 当 一 个 进程 在 上 下 文 切换 后 继续 执行 时 ， 高 速 缓存 对 于 应 用 程序 而 言 也 是 冷 的 ， 必 
须 再 次 热身 。 
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8.3 ”系统 调用 错误 处 理 


当 Unix 系统 级 函数 遇 到 错误 时 ， 它 们 典型 地 会 返回 -1， 并 设置 全 局 整数 变量 errno 来 表 
示 什 么 出 错 了 。 程 序 员 应 该 总 是 检查 错误 ， 但 是 不 幸 的 是 ， 许 多 人 都 忽略 了 错误 检查 ， 因 为 它 使 
代码 变 得 腔 肿 ， Es 比如 ， 下 面 是 我 们 调用 Unix fork 函数 时 会 如 何 检查 错误 : 


1 if Cena = fork()) < 0) { 

2 fprintf (stderr, "fork error: %s\n", strerror(errno)); 
3 exit (0); 
4 


strerror 消 数 返回 一 个 文本 串 ， 描 述 了 和 某 个 errno 值 相 关联 的 错误 。 通 过 定义 下 面 的 
错误 报告 函数 〈error-reporting fonction )， 我 们 能 够 在 某 种 程度 上 简化 这 个 代码 : 


1 void unix_error(char *msg) /* Unix-style error */ 

多 

3 fprintf (stderr, "%s: %s\n", msg, strerror(errno)); 
4 exit(0); 

5s 3} 


给 定 这 个 函数 ， 我 们 对 fork 的 调用 从 4 行 简 化 到 了 2 行 : 


- ‘if ((pid = fork()) < 0) 
< nix._error('"fork error'); 


通过 使 用 错误 处 理 包 装 〈error-handling wrapper) 函数 ， 我 们 可 以 更 进一步 地 简化 我 们 的 代 
码 。 对 于 一 个 给 定 的 基本 函数 fco， 我 们 定义 一 个 具有 相同 参数 的 包装 函数 Foo， 但 是 第 一 个 
字母 大 写 了 。 包 装 函 数 调用 基本 函数 ， 检 查 错 误 ， 如 果 有 任何 问题 就 终止 。 比 如 ， 下 面 是 fork 
函数 的 错误 处 理 包装 函数 : 


Nf 
1 pid_t Fork(void) 
2 1 
3 pid_t Pida; 
4 
5 if ((pid = fork()) < 0) 
6 unix_error("Fork error'); 
7 return pid; 
8  】 


给 定 这 个 包装 函数 ， 我 们 对 fork 的 调用 就 缩减 为 1 行 
] pid = Fork() ; 


我 们 将 在 本 书 剩余 的 部 分 中 都 使 用 错误 处 理 包 装 函 数 。 它 们 能 够 保持 代码 示例 简洁 ， 而 又 不 
会 给 你 错误 的 假象 ， 认 为 允许 忽略 错误 检查 。 注 意 ， 当 在 本 书 中 谈 到 系统 级 函数 时 ， 我 们 总 是 用 
”它们 的 小 写字 母 的 基本 名 字 来 引用 它们 ， 而 不 是 用 它们 大 写 的 包装 函数 名 来 引用 。 

关于 Unix 错误 处 理 以 及 本 书 中 使 用 的 错误 处 理 包装 函数 的 讨论 ， 请 参见 附录 A。 包 装 函 数 
定义 在 一 个 叫做 csapp.c 的 文件 中 ， 它 们 的 原型 定义 在 一 个 叫做 csapp.h 的 头 文件 中 ; 可 以 
从 CS:APP I 
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8.4 ”进程 控制 

Unix 提供 了 大 量 从 C 程序 中 操作 进程 的 系统 调用 。 这 一 节 将 描述 这 些 重要 的 函数 ， 并 举例 
说 明 如 何 使 用 它们 。 
8.4.1 获取 进程 ID 

每 个 进程 都 有 一 个 唯一 的 正 数 ( 非 零 ) 进程 ID (PID)。getpidq 函数 返回 调用 进程 的 PID。 
getppid 函数 返回 它 的 父 进程 的 PID (创建 调用 进程 的 进程 )。 


#include <sys/types.h> 
#incjude <unistd.h> 


pid_t getpid(void); 
pid_t getppid(void) ; 


返回 : 调用 者 或 其 父 进 程 的 PID。 





getpid 和 getppid 晴 数 返回 一 个 类 型 为 pid_t 的 整数 值 ， 在 Linux 系统 上 它 在 types . 
h 中 被 定义 为 int。 
8.4.2 ”创建 和 终止 进程 
从 程序 员 的 角度 ， 我 们 可 以 认为 进程 总 是 处 于 下 面 三 种 状态 之 一 
* 运行 。 进 程 要 么 在 CPU 上 执行 ， 要 么 在 等 竺 被 执行 且 最 终 会 被 内 核 调度 ， 
停止。 进程 的 执行 被 挂 起 (suspend)， 且 不 会 被 调度 。 当 收 到 SIGSTOP、SIGTSTP、 
SIDTTIN 或 者 SIGTTOU 信号 时 ， 进 程 就 停止 ， 并 且 保 持 停止 直到 它 收 到 一 个 SIGCONT 
信号 ， 在 这 个 时 刻 ， 进 程 再 次 开始 运行 。( 信 号 是 一 种 软件 中 断 的 形式 ， 将 在 8.5 节 中 详细 
描述 。) 
。 终 止 。 进 程 永远 地 停止 了 。 进程 会 因为 三 种 原 因 终 止 ， 1) 收 到 一 个 信号 ， 该 信号 的 默认 
行为 是 终止 进程 ，2) 从 主 程 序 返回 ，3) 调用 exit 函数 。 


#include <std1lLib .hbh> 


void exit(int Status) ; 





该 函数 无 返回 值 。 


exit 函数 以 status 退出 状态 来 终止 进程 ( 另 一 种 设置 退出 状态 的 方法 是 从 主 程序 中 返回 
一 个 整数 值 )。 
父 进程 通过 调用 fork 函数 创建 一 个 新 的 运行 子 进程 : 


#include <sys/types.h> 
#include <unistd.h> 


pid_t fork(void); 


返回 3 子 进程 返回 0， 父 进程 返回 子 进 程 的 PID, 如 果 出 错 ， 则 为 -1, 





”新 创建 的 子 进程 几乎 但 不 完全 与 父 进程 相同 。 子 进程 得 到 与 父 进 程 用 户 级 虚拟 地 址 空间 相同 
的 但 是 独立 的 ) 一 份 拷贝 ， 包括 文 本 、 数 据 和 bss 段 、 堆 以 及 用 户 栈 。 子 进程 还 获得 与 父 进程 
任何 打开 文件 描述 符 相 同 的 拷贝 ,这 就 意味 着 当 父 进程 调用 fork 时 ， 子 进程 可 以 读 写 父 进程 中 
打开 的 任何 文件 。 父 进程 和 新 创建 的 子 进程 之 间 最 大 的 区 别 在 于 它们 有 不 同 的 PID。 
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fork 函数 是 有 趣 的 〈 也 是 常常 令 人 迷惑 的 )， 因 为 它 只 被 调用 一 次 ， 却 会 返回 两 次 : 一 次 
( 父 进程 》 中 ， 一 次 是 在 新 创建 的 子 进程 中 。 在 父 进程 中 ，fork 返回 子 进程 的 

。 在 子 进程 中 ，fork 返回 0。 Ds 
ee z 

图 8-15 展示 了 一 个 使 用 fork 创建 子 进程 的 父 进程 的 示例 。 当 Forx 调用 在 第 8 行 返回 时 
在 父 进程 和 子 进程 中 x 的 值 都 为 1。 子 进程 在 第 10 行 增加 并 输出 它 的 x 的 拷贝 。 相 似 地 ， 父 进 
程 在 第 15 行 减少 和 输出 它 的 x 的 拷贝 。 


code/ecffork.c 


1 #include "csapp.h" 

2 

3 int main() 

4 二 

5 pid_t pid; 

6 : int x = 1; . 

7 

8 pid = Fork(); ， 

9 if (pid == 0) { /x Child */ 


10 printf ("child : x=%d\n", ++x); 
11 exit (0); 


12 } 

13 

14 /* Parent */ 

15 printf("parent: x=%d\n", -—-x); 
16 exit (0); 

i7 3} 


code/ecf/fork.c 
图 8-15 使 用 fork 创建 一 个 新 进程 


当 在 Unix 系统 上 运行 这 个 程序 时 ， 我 们 得 到 下 面 的 结果 : 


unix> ./fork 
parent: x=0 
child : X=2 


这 个 简单 的 例子 有 一 些微 妙 的 方面 。 

。 调 用 一 次 ， 返 回 两 次 。fork 函数 被 父 进程 调用 一 次 ， 但 是 却 返回 两 次 一 一 一 次 是 返回 到 
父 进程 ， 一 次 是 返回 到 新 创建 的 子 进程 。 对 于 只 创建 一 个 子 进程 的 程序 来 说 ， 这 还 是 相当 
简单 直接 的 。 但 是 具有 多 个 fork 实例 的 程序 可 能 就 会 今 人 迷惑 ， 需 要 仔细 地 推 殴 了 。 

。 并 发 执行 。 父 进程 和 子 进程 是 并 发 运行 的 独立 进程 。 内 核能 够 以 任意 方式 交替 执行 它们 的 
逻辑 控制 流 中 的 指令 。 当 我 们 在 系统 上 运行 这 个 程序 时 ， 父 进程 先 完成 它 的 printf 语 
句 ， 然 后 是 子 进程 。 然 而 ， 在 另 一 个 系统 上 可 能 正好 相反 。 一 般 而 言 ， 作 为 程序 员 ， 我 们 
决 不 能 对 不 同 进程 中 指令 的 交替 执行 做 任何 假设 。 

。 相 同 的 但 是 独立 的 地 址 空间 。 如 果 能 够 在 fork 函数 在 父 进 程 和 子 进程 中 返回 后 立即 暂停 
这 两 个 进程 ， 我 们 会 看 到 每 个 进程 的 地 址 空间 都 是 相同 的 。 每 个 进程 有 相同 的 用 户 栈 、 相 
“ 同 的 本 地 变量 值 、 相 同 的 堆 、 相 同 的 全 局 变量 值 ， 以 及 相同 的 代码 。 因 此 ， 在 我 们 的 示例 
程序 中 ， 当 fork 函数 在 第 8 行 返回 时 ， 本 地 变量 x 在 父 进 程 和 子 进 程 中 都 为 1。 然 而 ， 
因为 父 进程 和 子 进程 是 独立 的 进程 ， 它 们 都 有 自己 的 私有 地 址 空间 。 父 进程 和 子 进 程 对 x 
所 做 的 任何 改变 都 是 独立 的 ， 不 会 反映 在 另 一 个 进程 的 存储 器 中 。 这 就 是 为 什么 当 父 进程 
和 子 进程 调用 它们 各 自 的 printf 语句 时 ， 它 们 中 的 变量 x 会 有 不 同 的 值 的 原因 。 
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“共享 文件 。 当 运行 这 个 示例 程序 时 ， 我 们 注意 到 父 进程 和 子 进 程 都 把 它们 的 输出 显示 在 屏 

幕 上 。 原 因 是 子 进 程 继 承 了 父 进程 所 有 的 打开 文件 。 当 父 进 程 调 用 fork 时 ，stqout 文 

件 是 被 打开 的 ， 并 指向 屏幕 。 子 进程 继承 了 这 个 文件 ， 因 此 它 的 输出 也 是 指向 屏幕 的 。 

如 果 你 是 第 一 次 学 习 fork 函数 ， 画 进程 图 通常 会 有 所 帮助 ， 其 中 每 个 水 平 的 箭头 对 应 于 从 
左 到 右 执行 指令 的 进程 ， 而 每 个 垂直 的 箭头 对 应 于 fork 函数 的 执行 。 z 

例如 ， 图 8-16a 中 的 程序 将 产生 多 少 输出 行 呢 ? 图 8-16b 给 出 了 相应 的 进程 图 。 当 父 进程 执 
行程 序 中 第 一 个 (也 是 唯一 一 个 ) fork 函数 时 ， 它 会 创建 一 个 子 进程 。 每 个 进程 都 调用 一 次 
printf， 所 以 程序 打印 两 个 输出 行 。 z 

现在 如 果 我 们 像 图 8-16c 所 示 的 那样 调用 fork 两 次 ， 会 怎样 呢 ? 就 像 在 图 8-16d 中 看 到 的 
那样 ， 父 进程 调用 fork 创建 一 个 子 进程 ， 然 后 父 进程 和 子 进程 都 调用 fork， 这 就 导致 多 了 两 
个 进程 。 因 此 ， 就 有 了 4 个 进程 ， 每 个 都 调用 printf， 所 以 程序 就 产生 了 4 个 输出 行 。 

继续 沿 这 个 思路 想 下 去 ， 如 果 我 们 要 调用 fork 三 次 ， 如 图 8-16e 所 示 ， 又 会 发 生 什么 呢 ? 
就 像 我 们 从 图 8-16f 中 的 进程 图 中 看 到 的 那样 ， 一 共 会 有 8 个 进程 。 每 个 进程 调用 Printf， 所 
以 程序 就 产生 了 8 个 输出 行 。 


#include "csapp.h" 


int main() 


Fork(); 

printf ("hello\n'); 

exit (0); hello 
} fork 


hello 





a) 调用 fork 一 次 b) 打印 两 个 输出 行 
#include "csapp.h" 


int main() 


{ 


hello 


Fork(); 

Fork() ; 

printf ("hello\n'); 
exit (0),， 





fork fork 


c) 调用 fork 两 次 d) 打印 4 个 输出 行 





hello 


#include "csapp.h" 


int main() 
t 
Fork() ; 
Fork() ; 
Fork(); 
printf ("hello\n'); 
exit (0); 





i 
OO 0 WN 人 TT mm 一 





a fork fork fork 
e) 调用 fork 三 次 . f) 打印 8 个 输出 行 
图 8-16 ”fork 程序 示例 和 它们 的 进程 图 
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ws 练习 题 8.2 ”考虑 下 面 的 程序 : 


code/ecf/forkprobQ.c 
1 #include "csapp.h" 
2 
3 int main() 
4 + 
5 int x = 1; 
6 
7 if (Fork() == 0) 
8 printf ("printf1i: x=%d\n", ++x); 
9 printf ("printf2: x=%d\n", -~-x); 
10 exit (0); 
11 } . 


code/ecf/forkprob0.c 

A. 子 进程 的 输出 是 什么 ? 

B. 父 进 程 的 输出 是 什么 ? 
8.4.3 ”回收 子 进程 。 | 

当 一 个 进程 由 于 某 种 原因 终止 时 ， 内 核 并 不 是 立即 把 它 从 系统 中 清除 。 相 反 ， 进 程 被 保持 在 
一 种 已 终止 的 状态 中 ， 直 到 被 它 的 父 进程 回收 (reap)。 当 父 进 程 回 收 已 终止 的 子 进程 时 ， 内 核 
将 子 进 程 的 退出 状态 传递 给 父 进程 ， 然 后 抛弃 已 终止 的 进程 ， 从 此 时 开始 ， 该 进程 就 不 存在 了 。 
一 个 终止 了 但 还 未 被 回收 的 进程 称 为 伪 死 进程 〈zombie )。 


为 什么 已 终止 的 子 进 程 被 称 为 僵 死 进程 ? 
在 民间 传说 中 ， 僵 尸 是 活着 的 尸体 ， 一 种 半生 半死 的 实体 。 僵 死 进程 已 经 终止 了 ， 而 内 核 仍 
保留 着 它 的 某 些 状态 直到 父 进 程 回收 它 为 止 ， 从 这 个 意义 上 说 它们 是 类 似 的 。 


如 果 父 进程 没有 回收 它 的 僵 死 子 进 程 就 终止 了 ， 那 么 内 核 就 会 安排 init 进程 来 回收 它们 。 
init 进程 的 PID 为 1， 并 且 是 在 系统 初始 化 时 由 内 核 创建 的 。 长 时 间 运 行 的 程序 ， 比 如 外 壳 或 
者 服务 器 ， 总 是 应 该 回收 它们 的 伪 死 子 进程 。 即 使 伪 死 子 进程 没有 运行 ， 它 们 仍然 消耗 系统 的 存 

一 个 进程 可 以 通过 调用 waitpid 函数 来 等 待 它 的 子 进程 终止 或 者 停止 。 


#include <sys/types.h> 
#include <sys/vwait.h> 


Pid_t waitpid(pid_t pid, int *status, int options); 
返回 : 如 果 成 功 ， 则 为 子 进程 的 PID, 如 果 WNOHANG, 则 为 0， 如 果 其 他 错误 ， 则 为 -1。 





waitpid 国 数 有 点 复 茱 。 软 认 地 ( 当 options = 0 时 )，waitpid 挂 起 调用 进程 的 执行 ， 
直到 它 的 等 待 集合 中 的 一 个 子 进程 终止 。 如 果 等 待 集合 中 的 一 个 进程 在 刚 调用 的 时 刻 就 已 经 终止 
了 ， 那 么 waitpid 就 立即 返回 。 在 这 两 种 情况 下 ，waitpid 返回 导致 waitpid 返回 的 已 终止 
子 进程 的 PID， 并 且 将 这 个 已 终止 的 子 进 程 从 系统 中 去 除 。 

1. 判定 等 待 集合 的 成 员 . 

等 待 集合 的 成 员 是 由 参数 pid 来 确定 的 : 

* 如果 pid > 0， 那 么 等 待 集合 就 是 一 个 单独 的 子 进程 ， 它 的 进程 DD 等 于 pid。 

“如 果 pid = -1， 那 么 等 待 集合 就 是 由 父 进程 所 有 的 子 进程 组 成 的 。 

waitpid 函数 还 文 持 其 他 类 型 的 等 竺 集合， 包括 Unix 进程 组 ， 对 此 我 们 将 不 做 讨论 。 
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2. 修改 默认 行为 

可 以 通过 将 optioins 设置 为 常量 WNOHANG 和 WUNTRACED 的 各 种 组 合 ” 修 改 默 认 行 为 : 

“。WNOHANG : 如 果 等 待 集合 中 的 任何 子 进程 都 还 没有 终止 ， 那么 就 立即 返回 (返回 值 为 
0)。 默 认 的 行为 是 挂 起 调用 进程 ， 直 到 有 子 进程 终止 。 在 等 待 子 进程 终止 的 同时 ， 如 果 还 
想 做 些 有 用 的 工作 ， 这 个 选项 会 有 用 。 

。WUNTRACED : 挂 起 调用 进程 的 执行 ， 直 到 等 待 集合 中 的 一 个 进程 变 成 已 终止 或 者 被 停 
止 。 返 回 的 PID 为 导致 返回 的 已 终止 或 被 停止 子 进程 的 PID。 默 认 的 行为 是 只 返回 已 终止 
的 子 进程 。 当 你 想 要 检查 已 终止 和 被 停止 的 子 进 程 时 ， 这 个 选项 会 有 用 。 

。WNOHANG|WUNTRACED : 立即 返回 ， 如 果 等 待 集合 中 没有 任何 子 进程 被 停止 或 已 终止 ， 
那么 返回 值 为 0， 或 者 返回 值 等 于 那个 被 停止 或 者 已 终止 的 子 进程 的 PID。 

3. 检查 已 回收 子 进 程 的 退出 状态 

如 果 status 参数 是 非 空 的 ， 那 么 waitpid 就 会 在 status 参数 中 放 上 关于 导致 返回 的 子 

进程 的 状态 信息 。wait .h 头 文件 定义 了 解释 status 参数 的 几 个 宏 : 

。WIFEXITED (status) : 如 果子 进程 通过 调用 exit 或 者 一 个 返回 〈returm) 正常 终止， 
就 返回 真 。 

。WEXITSTATUS (status ): 返回 一 个 正 党 终止 的 了 进程 的 退出 状态 。 只 有 在 WIFEXITED 
返回 为 真 时 ， 才 会 定义 这 个 状态 。 

。WIFSIGNALED (status): 如 果子 进程 是 因为 一 个 未 被 捕获 的 信号 终止 的 ， 那么 就 返回 
真 〈 将 在 8.5 节 中 解释 说 明 信 和 号 )。 

。WTERMSIG (status): 返回 导致 子 进程 终止 的 信号 的 数量 。 只 有 在 WIFSIGNALED 
(status) 返回 为 真 时 ， 才 定义 这 个 状态 。 

。WIFSTOPPED (status) : 如 果 引 起 返回 的 子 进程 当前 是 被 停止 的 ， 那么 就 返回 真 。 

。WSTOPSIG (status): 返回 引起 子 进程 停止 的 信号 的 数量 。 只 有 在 WIFSTOPPED 
(status) 返回 为 真 时 ， 才 定 义 这 个 状态 。 z 

4. 错误 条 件 z 

如 果 调 用 进程 没有 子 进程 ， 那 么 waitpid 返回 1， 并 且 设 置 errno 为 ECHILD。 如 果 

waitpid 函数 被 一 个 信号 中 断 ， 那 么 它 返 回 -1， 并 设置 errno 为 EINTR。 


和 Unix 函数 相关 的 常量 

像 WNOHANG 和 WUNTRACED 这 样 的 常量 是 由 系统 头 文件 定义 的 。 例 如 ，WNOHANG 
和 WUNTRACED 是 由 wait.h 头 文 件 (间接 ) 定义 的 : 

/* Bits in the third argument to ‘waitpid'. */ 

#define WNOHANG 1 /* Don't block waiting. */ 

#define WUNTRACED 2 /* Report status of stopped children. */ 
为 了 使 用 这 些 常 量 ， 必 须 在 你 的 代码 中 包含 wait .h 头 文件 

#include <sys/wait. h> 


每 个 Unix 函数 的 man 页 列 出 了 无 论 何 时 你 在 代码 中 使 用 那个 函数 部 要 包含 的 头 文 件 。 同 
时 ， 为 了 检查 诸如 ECHILD 和 EINTR 之 类 的 返回 代码 ， 你 必须 包含 errno.h。 为 了 简化 代码 
示例 ， 我 们 包含 了 一 个 称 为 csapp.h 的 头 文件 ， 它 包括 了 本 书 中 使 用 的 源 潜 源 数 的 头 秋 件 。 
csapp.h 头 文 件 可 以 从 CS:APP 网 站 在 线 获得 。 


训练 习题 8.3 ” 列 出 下 面 程序 所 有 可 能 的 输出 序列 ， 
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code/ecf/waitprobQ.c 


int main() 


1 
2 

3 if (Fork() == 0) 1{ 

4 printf ("a'"); 

5 } 

6 else +{ 

7 printf("b"); 

8 waitpid(-1, NULL, 0); 
9 } 

10 printf("c"); 

11 exit (0); 


code/ecf/waitprob0.c 


5. wait 项 数 
wait 函数 是 waitpid 函数 的 简单 版 本 : 


#include <sys/types.h> 
#include <sys/vwait.h> 


pid_t wait(int *status); 


返回 : 如 果 成 功 ， 则 为 子 进程 的 PID, 如 果 出 错 ， 则 为 5 





调用 wait (&status) 等 价 于 调用 waitpid(-1，&status，0) 。 

6. 使 用 waitpia 的 示例 

因为 waitpid 函数 有 些 复杂 ， 看 几 个 例子 会 有 所 帮助 。 图 8- 17 展示 了 一 个 程序 ， 它 使 用 
waitpid， 不 按照 特定 的 顺序 等 待 它 的 所 及 个 子 进程 终止 。 

在 第 11 行 ， 父 进程 创建 个子 进程 ， 在 第 12 行 ， 每 个 子 进程 以 一 个 唯一 的 退出 状态 退出 。 
在 我 们 继续 研究 之 前 ， 请 确认 你 已 经 理解 为 什么 每 个 子 进程 会 执行 第 12 行 ， 而 父 进 程 不 会 。 

在 第 15 行 ， 父 进程 用 waitpid 作为 while 循环 的 测试 条 件 ， 等 待 它 所 有 的 子 进 程 终止 。 
因为 第 一 个 参数 是 -1， 所 以 对 waitpid 的 调用 会 阻塞 ， 直 到 任意 一 个 子 进程 终止 。 在 每 个 子 
进程 终止 时 ， 对 waitpid 的 调用 会 返回 ， 返 回 值 为 该 子 进程 的 非 零 的 PID。 第 16 行 检查 子 进 
程 的 退出 状态 。 如 果子 进程 是 正常 终止 的 ， 在 此 是 以 调用 exit 函数 终止 的 ， 那 么 父 进程 就 提取 
出 退出 状态 ， 把 它 输出 到 stdout 上 。 

当 回 收 了 所 有 的 子 进程 之 后 ， 再 调用 waitpid 就 返回 -1， 并 且 设 置 errno 为 ECHILD。 
第 24 行 检查 waitpid 函数 是 正常 终止 的 ， 否 则 就 输出 一 个 错误 消息 。 在 我 们 的 Unix 系统 上 运 
行 这 个 程序 时 ， 它 产生 如 下 输出 : 

unix> ./waitpid1 


child 22966 terminated normally with exit status=100 
child 22967 terminated normally with exit status=101 


注意 ， 程 序 不 会 按照 特定 的 顺序 回收 子 进程 。 子 进程 回收 的 顺序 是 这 台 特 定 的 计算 机 的 属 
性 。 在 另 一 个 系统 上 ， 甚 至 在 同一 个 系统 上 再 执行 一 次 ， 两 个 子 进程 都 可 能 以 相反 的 顺序 被 回 
收 。 这 是 非 确 定性 的 (nondeterministic) 行为 的 一 个 示例 ， 这 种 非 确定 性 行为 使 得 对 并 发 进行 推 
理 非 常 困难。 两 种 可 能 的 结果 都 是 正确 的 ， 作 为 一 个 程序 员 ， 你 绝 不 可 以 假设 总 是 会 出 现 某 一 个 
结果 ， 无 论 另 一 个 结果 多 么 不 可 能 出 现 。 唯 一 正确 的 假设 是 每 一 个 可 能 的 结果 都 同样 可 能 出 现 。 

图 8-18 展示 了 一 个 简单 的 改变 ， 它 消除 了 这 种 不 确定 性 的 ， 按 照 父 进程 创建 子 进程 的 相同 
顺序 来 回收 这 些 子 进程 。 在 第 11 行 中 ， 父 进程 按照 顺序 存储 了 它 的 子 进程 的 PID， 然 后 通过 用 
适当 的 PID 作为 第 一 个 参数 来 调用 waitpid， 按 照 同样 的 顺序 来 等 待 每 个 子 进程 。 
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code/ecf/waitpidl1.c 
| #include "csapp.h" 
2 #define N 2 
3 
4 int main() 
5 -省 
6 int status, i; 
7 pid_t Pida; 
8 
9 /+ Parent creates N children */ 
10 for (i = 0; i < N; i++) 
11 if ((pid = Fork()) == 0) /x* Child */ 
12 exit (100+i); 
13 
14 /* Parent reaps N children in no particular order */ 
15 while ((pid = waitpid(-i, &status, 0)) > 0) { 
16 if (WIFEXITED(status)) 
17 printf("child %d terminated normally with exit status=%hd\n", 
18 pid, WEXITSTATUS (status) ) ; 
19 else 
20 printf("child %d terminated abnormally\n', Pid) ; 
21 } 
22 
23 /* The only nornmal termination is if there are no more children */ 
24 if (errno != ECHILD) 
25 unix_error("waitpid error"); 
26 
27 exit (0); 
28 J} 
code/ecf/waitpidl.c 
图 8-17 使 用 waitpPid 盟 数 不 按照 特定 的 顺序 回收 僵 死 子 进程 
code/ecf/waitpid2.c 
1 #include "csapp.h" 
2  #define N 2 
3 
4 int main() 
5 1 
6 int status, i; 
7 pid_t Pid[N] ，retpid; 
8 
9 /* Parent Creates N children */ 
10 for ( = 0; i < N; i++) 
.11 if ((pid[i] = Fork()) == 0) /* Child */ .. 
12 exit (100+i); | 
13 
14 /* Parent reaps N children in order */ 
15 i = 0; 
16 while ((retpid = waitpid(pid[i++], &status, 0)) > 0) { 
17 if (WIFEXITED (status)) 
18 printf ("child %d terminated normally with exit status=%d\n", 
19 retpid, WEXITSTATUS (status)); 
20 else : 
21 printf ("chilid %d terminated abnormally\n", retpid); 
22 } 
23 
24 /* The only normal termination is if there are no more children #/ 
25 if (errno != ECHILD) 
26 unix_error("waitpid error'); 
27 ee 
28 exit (0); 
29 3} 
code/ecf/waitpid2.c 





图 8-18 使 用 waitpid 按照 创建 子 进程 的 顺序 来 回收 这 些 僵 死 子 进程 
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SS 练习 题 8.4 考虑 下 面 的 程序 : 





‘code/ecf/waitprobl.c 


1 int main() 

2 {1 

3 int status; 

4 pid_t pid; 

5 

6 printf ("Hello\n'"); 

7 pid = Fork() ; 

8 printf("%d\n", !pid); 

9 if (pid 1= 0) { 

10 if (waitpid(-1, &status, 0) > 0) + 

11 if (WIFEXITED(status) != 0) 

12 printf ("%d\n", WEXITSTATUS (status)); 
13 > 0 
14 } 

15 Printf ("Bye\n'"); 

16 exit(2) ; 

17 3} 


code/ecf/waitprobl.c 


A. 这 个 程序 会 产生 多 少 输出 行 ? 
B. 这 些 输 出 行 的 一 种 可 能 的 顺序 是 什么 ? 

8.4.4 ”让 进程 休 眼 
sleep 函数 将 一 个 进程 挂 起 一 段 指定 的 时 间 。 


#include <tnistd.h> 


unsigned int sleep(unsigned int secs); 


返回 ; 还 要 休眠 的 秒 数 。 





如 果 请 求 的 时 间 量 已 经 到 了 ， sleep 返回 0， 否 则 返回 还 剩 下 的 要 休眠 的 秒 数 。 后 一 种 情 
况 是 可 能 的 ， 如 果 因 为 sleep 函数 被 一 个 信号 中 断 而 过 早 地 返回 。 我 们 将 在 8.5 节 中 详细 讨 


论 信号 。 
我 们 会 发 现 很 有 用 的 另 一 个 函数 是 pause 函数 ， 该 函数 让 调用 盟 数 休眠 ， 直 到 该 进程 收 到 一 


个 信号。 


#include <unistd.h> 


int pause(void); 





练习 题 8.5 ”编写 一 个 sleep 的 包装 函数 ， 叫 做 snooze， 带 有 下 面 的 接口 : 





unsigned int snooze (unsigned int 3 


除了 snooze 函数 会 打印 出 一 条 信息 来 描述 进程 实际 休眠 了 多 长 时 间 外 ， 它 和 sleep 函数 的 和 
为 完全 一 样 ， 


Slept for 4 of 5 secs. 
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8.4.5 ”加 载 并 运行 程序 
execve 函数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 程序 。 


#include <unistd.h> 


int execve(const char *filename, const char *argv[], 


const char *envp[]); 


如 果 成 功 ， 则 不 返回 ， 如 果 错 误 ， 则 返回 一 1 。 





execve 函数 加 载 并 运行 可 执行 目标 文件 filename， 且 带 参数 列表 argv 和 环境 变量 列表 
envp。 只 有 当 出 现 错误 时 ， 例 如 找 不 到 flename，execve 才 会 返回 到 调用 程序 。 所 以 ， 与 
fork 一 次 调用 返回 两 次 不 同 ，execve 调用 一 次 并 从 不 返回 。 
参数 列表 是 用 图 8-19 中 的 数据 结构 表示 的 。argv 变量 指向 一 个 以 null 结尾 的 指针 数组 ， 其 
中 每 个 指针 都 指向 一 个 参数 串 。 按 照 惯 例 ，azgv[0] 是 可 执行 目标 文件 的 名 字 。 环 境 变 量 的 列 
表 是 由 一 个 类 似 的 数据 结构 表示 的 ， 如 图 8-20 所 示 。envp 变量 指向 一 个 以 null 结尾 的 指针 数 
组 ， 其 中 每 个 指针 指向 一 个 环境 变量 串 ， 其 中 每 个 串 都 是 形 如 “NAME=VALUE” 的 名 字 一 值 对 。 


这 
es 





图 8-19 ”参数 列表 的 组 织 结构 


envp[] 


村 
"PWD=/usr/droh' 
NPRINTER=iron" 


: /user/include" 





图 8-20 ”环境 变量 列表 的 组 织 结构 


将 控制 传递 给 新 程序 的 主 函数 ， 该 主 函数 有 如 下 形式 的 原型 


int main(int argc, char **argv, char **envp); 


或 者 等 价 地 ， 


int main(int argc, char *argv[], char *envp[]); 


当 main 开始 在 一 个 32 位 Linux 进程 中 执行 时 ， 用 户 栈 有 如 图 8-21 所 示 的 组 织 结 构 。 让 我 
们 从 栈 底 ( 高 地 址 ) 往 栈 顶 (低地 址 ) 依次 看 一 看 。 首 先是 参数 和 环境 字符 串 ， 它 们 都 是 连续 地 
存放 在 栈 中 的 ， 一 个 接 一 个 ， 没 有 分 隔 。 栈 往 上 紧 随 其 后 的 是 以 null 结尾 的 指针 数组 ， 其 中 每 
个 指针 都 指向 栈 中 的 一 个 环境 变量 串 。 全 局 变量 environ 指向 这 些 指 针 中 的 第 一 个 envP [0] 。 
紧 随 环境 变量 数组 之 后 的 是 以 null 结尾 的 argv [] 数组 ， 其 中 每 个 元 素 都 指向 栈 中 一 个 参数 串 。 
在 栈 的 顶部 是 main 函数 的 3 个 参数 : 1) envp， 它 指向 envp[] 数组 ，2) argv， 它 指 问 
argv[] 数组 ，3) argc， 它 给 出 argv[] 中 非 空 指针 的 数量 。 

Unix 提供 了 几 个 函数 来 操作 环境 数组 : 
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栈 顶 
图 8-21 当 一 个 新 的 程序 开始 时 ， 用 户 栈 的 典型 组 织 结构 


#include <stdlib.h> 


char *getenv(const char *name); 





返回 : 若 存在 则 为 指向 name 的 指针 ， 若 无 匹配 的 ， 则 为 NULL。 


getenv 函数 在 环境 数组 中 搜索 字符 串 “name=value”。 如 果 找 到 了 ， 它 就 返回 一 个 指向 
value 的 指针 ， 否 则 它 就 返回 NULL。 


#include <stdlib.h> 


int setenv(const char *name, const char *newvalue, int overwrite); 


返回 : 若 成 功 则 为 0， 若 错误 则 为 一 1。 


void unsetenv(const char *name); 


返回 : 无 。 





如 果 环 境 数 组 包含 一 个 形 如 “name=oldvalue” 的 字符 串 ， 那 么 unsetenv 会 删除 它 ， 
而 setenv 会 用 newvalue 代替 oldvalue， 但 是 只 有 在 overwirte 非 零 时 才 会 这 样 。 如 果 
name 不 存在 ， 那 么 setenv 就 把 “name=newvalue” 添 加 到 数组 中 。 


程序 与 进程 

这 是 一 个 适当 的 地 方 ， 停 下 来 ， 确 认 一 下 你 理解 了 程序 和 进程 之 间 的 区 别 。 程 序 是 一 堆 代 码 
和 数据 ; 程序 可 以 作为 目标 模块 存在 于 磁盘 上 ， 或 者 作为 段 存 在 于 地 址 空间 中 。 进 程 是 执行 中 程 
序 的 一 个 具体 的 实例 ; 程序 总 是 运行 在 某 个 进程 的 上 下 文中 。 如 果 你 想 要 理解 fork 和 execve 
函数 ， 理 解 这 个 差异 是 很 重要 的 。fork 函数 在 新 的 子 进程 中 运行 相同 的 程序 ， 新 的 子 进程 是 多 
进程 的 一 个 复制 品 。execve 函数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 的 程序 。 它 会 徐 盖 当 
前 进程 的 地 址 空间 ， 但 并 没有 创建 一 个 新 进程 。 新 的 程序 仍然 有 相同 的 PID， 并 且 继 承 了 调用 
execve 遂 数 时 已 打开 的 所 有 文件 描述 符 。 J , . i 
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本 练习 题 8.6 ”编写 一 个 叫做 myeche 的 程序 ， 它 打印 出 它 的 命令 行 参数 和 环境 变量 。 例 如 : 


unix> ./myecho argl arg2 
Command line arguments : 
argv[ 0] : myecho 
argv[ 1] : argl 
argv[ 2] : arg2 


Environment Variables : 
envp[ 0] : 
envp[ 1]: TERM=emacs 


envp[25] : USER=droh 
envp [26] : SHELL=/usr/local/bin/tcsh 
envp[27]: HOME=/usr0O/droh 2 


8.4.6 ”利用 fork 和 execve 运行 程序 

像 Unix 外 过 和 Web 服务 器 (第 11 章 ) 这 样 的 程序 大 量 使 用 了 fork 和 execve 函数 。 外 
壳 是 一 个 交互 型 的 应 用 级 程序 ， 它 代表 用 户 运行 其 他 程序 。 最 早 的 外 壳 是 sh 程序 ， 后 面 出 现 了 
一 些 变种 ， 比 如 csh、tcsh、ksh 和 bash。 外 壳 执 行 一 系列 的 读 / 求 值 (read/evaluate) 步骤 ， 
然后 终止 。 读 步骤 读 取 来 自用 户 的 一 个 命令 行 。 求 值 步骤 解析 命令 行 ， 并 代表 用 户 运 行程 序 。 

图 8-22 展示 了 一 个 简单 外 壳 的 main 例 程 。 外 壳 打 印 一 个 命令 行 提示 符 ， 等 待 用 户 在 
stdin 上 输入 命令 行 ， 然 后 对 这 个 命令 行 求 值 。 


code/ecf/shellex.c 

1 #include "csapp.h" 

2  #define MAXARGS 128 

3 

4 /* Function prototypes */ 

5 void eval(char *cmdline); 

6 int parseline(char *buf, char **argVv); 

7 int builtin_command(char **argVv); 

8 

9 int main() 

0 2 

11 char cmdline [MAXLINE]; /* Command line */ 

12 

13 while (1) { 

14 /* Read */ 

15 printf ("> "); 

16 Fgets(cmdline, MAXLINE, stdin); 

17 if (feof (stdin)) 

18 exit (0); 

19 

20 /* Evaluate */ 

21 eval (cmdline); 

22 } 

23  】 
code/ecf/shellex.c 


图 8-22 一 个 简单 的 外 这 程序 的 main 例 程 


要 8-23 展示 了 对 命令 行 求 值 的 代码 。 它 的 首要 任务 是 调用 parseline 函数 ( 见 图 8-24)， 
这 个 函数 解析 了 以 空格 分 隔 的 命令 行 参数 ， 并 构造 最 终 会 传递 给 execve 的 argv 同 量 。 第 一 个 
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人 参数 被 假设 为 要 么 是 一 个 内 置 的 外 壳 命 令 名 ， 马 上 就 会 解释 这 个 命令 ， 要 么 是 一 个 可 执行 目标 文 
件 ， 会 在 一 个 新 的 子 进程 的 上 下 文中 加 载 并 运行 这 个 文件 。 

如 果 最 后 一 个 参数 是 “人 文 ”字符 ， 那 么 parseline 返回 1， 表 示 应 该 在 后 台 执 行 该 程序 
(外 壳 不 会 等 待 它 完 成 )， 否 则 它 返 回 0， 表 示 应 该 在 前 台 执 行 这 个 程序 (外 过 会 等 待 它 完成 )。 

在 解析 了 命令 行 之 后 ，eval 函数 调用 builtin _ command 函数 ， 该 函数 检查 第 一 个 命令 
行 参数 是 否 是 一 个 内 置 的 外 壳 命令 。 如 果 是 ， 它 就 立即 解释 这 个 命令 ， 并 返回 1， 否 则 返回 0。 
简单 的 外 壳 只 有 一 个 内 置 命令 一 一 quit 命令 ， 该 命令 会 终止 外 过 。 实 际 使 用 的 外 壳 有 大 量 的 命 
令 ， 如 pwd、jobs 和 fg。 z z 


code/ecf/shellex.c 
1 /+*+ eval ~ Evaluate a command line */ 
2 void eval(char *cmdline) 
3 渤 
4 char *argv [MAXARGS]; /* Argument list execve() */ 
5 char buf [MAXLINE] ; /* Holds modified command line */ 
6 int bg; /* Should the job run in bg or fg? */ 
2 pid_t pid; /* Process id */ 
8 
9 strcpy(buf , cmdline); 
10 bg = parseline(buf ，argv) ; 
11 if (argv[0] == NULL) 
12 return; /* TIgnore empty lines +*/ 
13 
14 if (!builtin_command(argv)) { 
15 if ((pid = Fork()) == 0) { /x* Child runs user job */ 
16 if (execve(argv[0], argv, environ) < 0) { 
17 printf("%s: Command not found.\n", argv[0]); 
18 exit (0); 
19 } 
20 上 
21 
22 /* Parent waits for foreground job to terminate */ 
23 if (!bg) { 
24 int Status ; 
25 if (waitpid(pid, &status, 0) < 0) | 
26 unix_error("waitfg: waitpid error'"); 
27 } 
28- else 
29 printf("%d %s", pid, cmdline); 
30 小 
31 return; 
522 二 
33 


34 /* If first arg is a builtin command, run it and return true */ 
35 int builtin_command(char **argv) 


36 + 

37 if (!strcmp(argv[0], "quit")) /* quit command */ 

38 . exit(0); 

39 if (lstrcmp(argv[0] , "&")) /* Tgnore singleton & */ 

40 return 1; 

41 -return 0; | /* Not a builtin command */ 
42 3} . 


code/ecfshellex.c 
图 8-23 eval : 对 外 过 命令 行 求 值 
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code/ecfshellex C 


1 /* parseline -~ Parse the command line and build the argV array #/ 
2 int parseline(char *buf, char **argVv) | 
$s 

4 .char *delim; . /* Points to first Space delimiter */ 

5 int argc; /* Number of args */ 

6 int bg; /* Background job? */ 

8 ‘buf [strlen(buf)-1] = ' '; /+* Replace trailing '\n' with space */ 
9 while (*buf && (*buf == ' ')) /* Ignore leading spaces */ | 
10 ”buf++; | 

11 

12 /* Build the argv list */ 

13 argc = 0; 

14 While ((delim = strchr(buf, ' '))) { 

15 argv[argc++] = buf; 

16 *delim = '\0'!'; 

17 buf = delim + 1; 

18 While (*buf && (*buf == ' ')) /* TIgnore spaces */ 

19 buf++; . 
20 

21 argv[argc]j = NULL ; 

22 

23 if (argc == 0) /* TIgnore blank line */ 

24 return 1; 

25 

26 /* Should the job run in the background? */ 

27 if ((bg = (*argv[largc-1] == '&')) != 0) 

28 argv[--argc] = NULL; 

29 

30 return bg; 

31 3} 

code/ecf/shellex.c 


图 8-24 Parseline : 解析 外 过 的 一 个 输入 行 


如 果 builtin_command 返回 0， 那 么 外 壳 创建 一 个 子 进程 ， 并 在 子 进程 中 执行 所 请 求 的 
程序 。 如 果 用 户 要 求 在 后 台 运 行 该 程序 ， 那 么 外 壳 返 回 到 循环 的 顶部 ， 等 待 下 一 个 命令 行 。 否 
则 ， 外 壳 使 用 waitpid 函数 等 待 作业 终止 。 当 作业 终止 时 ， 外 壳 就 开始 下 一 轮 迭 代 。 

注意 ， 这 个 简单 的 外 壳 是 有 缺陷 的 ， 因 为 它 并 不 回收 它 的 后 台子 进程 。 修 改 这 个 缺陷 就 要 求 
使 用 信和 号， 我 们 将 在 下 一 节 中 讲述 信号 Se 


8.5 信号 


到 目前 为 止 我 们 对 异常 控制 流 的 学 习 中 ， 我 们 已 经 看 到 了 硬件 和 软件 是 如 何 合作 以 提供 基本 
的 低层 异常 机 制 的 。 我 们 也 看 到 了 操作 系统 是 如 何 利用 异常 来 支持 一 种 称 为 进程 上 下 文 切换 的 异 
常 控制 流 形式 。 在 本 节 中 ， 我 们 将 研究 一 种 更 高 层 的 软件 形式 的 异常 ， 称 为 Unix 信号 ， 它 允许 
进程 中 断 其 他 进程 。 

一 个 信号 号 就 是 一 条 小 消息 ， 它 通知 进程 系统 中 发 生 了 一 个 某 种 类 型 的 事件 。 比如 ， 图 8-25 
展示 了 Linux 系统 上 支持 的 30 种 不 同类 型 的 信号 。 在 外 玩命 令 行 上 输入 “man 7 TR 就 能 
得 到 这 个 列表 。 
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SIGHUP 终止 终端 线 挂 断 
SIGINT 终止 来 自 键盘 的 中 断 
SIGQUIT 终止 | 来 自 键盘 的 退出 
SIGILL 终止 非法 指令 
SIGTRAP 终止 并 转 储存 储 器 (1) 跟踪 陷阱 
SIGABRT 终止 并 转 储 存储 器 (1) 来 自 abort 图 数 的 终止 信和 号 
SIGBUS 终止 总 线 错误 。 
SIGFPE 终止 并 转 储存 储 器 (1)  - 浮 点 异常 
SIGKILL 终止 (2) 杀 死 程序 
SIGUSR1 终止 用 户 定义 的 信号 1 
SIGSEGV 终止 并 转 储存 储 器 (1) 无 效 的 存储 器 引用 〈 段 故障 ) 
SIGUSR2 用 户 定义 的 信号 2 
SIGPIPE 、 向 一 个 没有 读 用 户 的 管道 做 写 操 作 
SIGALRM 、 来 自 alarm 函数 的 定时 器 信和 号 
SIGTERM 软件 终止 信号 
SIGSTKFLT 协 处 理 器 上 的 栈 故障 “ 
SIGCHLD 忽 一 个 子 进程 停止 或 者 终止 
SIGCONT 忽略 继续 进程 如 果 该 进程 停止 
SIGSTOP 停止 直到 下 一 个 SIGCONT(2) | 不 来 自 终 端的 停止 信和 号 
SIGTSTP 停止 直到 下 一 个 SIGCONT 来 自 终 端的 停止 信和 号 
SIGTTIN 停止 直到 下 一 个 SIGCONT 后 台 进 程 从 终端 读 
SIGTTOU 停止 直到 下 一 个 SIGCONT 后 台 进 程 向 终端 写 
SIGURG 忽略 套 接 字 上 的 紧急 情况 
SIGXCPU CPU 时 间 限 制 超出 
SIGXFSZ . 文件 大 小 限制 超出 
SIGVTALRM . 虚拟 定时 器 期 满 
SIGPROF 剖析 定时 器 期 满 
SIGWINCH 忽 窗口 大 小 变化 
SIGIO 在 某 个 描述 符 上 可 执行 VO 操作 
SIGPWR 电源 故障 
图 8-2$ Linux 信号 
注 : 1) 多 年 前 ,， 主 存储 器 是 用 一 种 称 为 磁 芯 存储 器 (core memory) 的 技术 来 实现 的 。“ 转 储存 储 器 ”(dumping 
core) 是 一 个 历史 术语 ， 意 思 是 把 代码 和 数据 存储 器 段 的 映像 写 到 磁盘 上 。 
2) 这 个 信号 既 不 能 被 捕获 ， 也 不 能 被 忽略 。 


每 种 信号 类 型 都 对 应 于 某 种 系统 事件 。 低 层 的 硬件 异常 是 由 内 核 异常 处 理 程序 处 理 的 ， 正 常 
情况 下 ， 对 用 户 进 程 而 言 是 不 可 见 的 。 信 号 提供 了 一 种 机 制 ， 通 知 用 户 进程 发 生 了 这 些 异常 。 比 、 
如 ， 如 果 一 个 进程 试图 除 以 0， 那么 内 核 就 发 送 给 它 一 个 SIGFPE 信号 (序号 8)。 如 果 一 个 进程 
执行 一 条 非法 指令 ， 那 么 内 核 就 发 送 给 它 一 个 SIGILL 信和 号 〈 序 号 4)。 如 果 进 程 进行 非法 存储 
器 引用 ， 内 核 就 发 送 给 它 一 个 SIGSEGYV 信号 (序号 11)。 其 他 信和 号 对 应 于 内 核 或 者 其 他 用 户 进 
程 中 较 高 层 的 软件 事件 。 比 如 ， 如 果 当 进程 在 前 台 运 行 时 ， 你 键入 ctz1-c〈 也 就 是 同时 按 下 
ctrl 键 和 c 键 )， 那 么 内 核 就 会 发 送 一 个 SIGINT 信和 号 〈 序 号 2) 给 这 个 前 台 进 程 。 一 个 进程 可 
以 通过 向 另 一 个 进程 发 送 一 个 SIGKILL 信和 号 (序号 9) 强制 终止 它 。 当 一 个 子 进程 终止 或 者 停 
止 时 ， 内 核 会 发 送 一 个 SIGCHLD 信和 号 〈 序 号 17) 给 父 进程 。 

8.5.1 信号 术语 
传送 一 个 信号 到 目的 进程 是 由 两 个 不 同步 又 组 成 的 : 
* 发送 信号。 内 核 通过 更 新 目的 进程 上 下 文中 的 某 个 状态 ， 发 送 〈 递 送 ) 一 个 信号 给 目的 进 
程 。 发 送信 号 可 以 有 如 下 两 个 原因 : 1) 内 核 检测 到 一 个 系统 事件 ， 比 如 被 零 除 错误 或 者 
子 进程 终止 。2) 一 个 进程 调用 了 ki11 函数 〈 在 下 一 节 中 讨论 )， 显 式 地 要 求 内 核发 送 一 
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个 信号 给 目的 进程 。 一 个 进程 可 以 发 送信 号 给 它 自己 ，。 
“接收 信号 。 当 目的 进程 被 内 核 强迫 以 某 种 方式 对 信号 的 发 送 做 出 反应 时 ， 目 的 进程 就 接 
收 了 信和 号。 进程 可 以 忽略 这 个 信号 ， 终 止 或 者 通过 执行 一 个 称 为 信号 处 理 程序 signal 
handler) 的 用 户 层 函 数 捕获 这 个 信号 。 图 8-26 给 出 了 信号 处 理 程序 捕获 信号 的 基本 思想 。 
一 个 只 发 出 而 没有 被 接收 的 信 

号 叫做 待 处 理 信号 (pending signal)。 

在 任何 时 刻 ， 一 种 类 型 至 多 只 会 有 

一 个 待 处 理 信号 。 如 果 一 个 进程 有 过 可 接 ， 






(2) 0 
信和 号 处 理 程序 






一 个 类 型 为 的 待 处 理 信 和 号， 那么 es 0 
任何 接 下 来 发 送 到 这 个 进程 的 类 型 (4 ) 信号 处 理 程序 






为 的 信号 都 不 会 排队 等 待 ,它们 只 返回 到 下 一 条 指令 


是 被 简单 地 丢弃 。 一 个 进程 可 以 有 
选择 性 地 阻塞 接收 某 种 信号 。 当 一 ”图 8-26 信号 处 理 。 接 收 到 信号 会 触发 控制 转移 到 信号 处 理 程 
种 信号 被 阻塞 时 ， 它 仍 可 以 被 发 送 ， 序 。 在 信号 处 理 程序 完成 处 理 之 后 ， 它 将 控制 返回 给 


但 是 产生 的 待 处 理 信 号 不 会 被 接收 ， i 
直到 进程 取消 对 这 种 信和 号 的 阻塞 。 

一 个 待 处 理 信号 最 多 只 能 被 接收 一 次 。. 内 核 为 每 个 进程 在 pendqing 位 向 量 中 维护 着 待 处 
理 信号 的 集合 ， 而 在 blocked 位 向 量 中 维护 着 被 阻塞 的 信号 集合 。 只 要 传送 了 一 个 类 型 为 下 的 
信和 号， 内 核 就 会 设置 pending 中 的 第 位 ， 而 只 要 接收 了 一 个 类 型 为 的 信和 号， 内核 就 会 清除 
pending 中 的 第 位 。 
8.5.2 发 送信 号 

Unix 系统 提供 了 大 量 向 进程 发 送信 号 的 机 制 。 所 有 这 些 机 制 都 是 基于 进程 组 (process 
group) 这 个 概念 的 。 

1. 进程 组 

每 个 进程 都 只 属于 一 个 进程 组 ， 进 程 组 是 由 一 个 正 整数 进程 组 ID 来 标识 的 。getpgrp 函数 
返回 当前 进程 的 进程 组 ID : 


#include <unistd.h> 


pid_t getpgrp(void) ; 
返回 : 调用 进程 的 进程 组 ID。 





默认 地 ， 一 个 子 进 程 和 它 的 父 进 程 同属 于 一 个 进程 组 。 0 setpgid 限 
数 来 改变 目 己 或 者 其 他 进程 的 进程 组 : 


#include <unistd.h> 


int Setpgid(Pid_t pid, pid_t pgid); 


返回 : 若 成 功 则 为 0， 若 错误 则 为 -1。 





setpgid 函数 将 进程 pid 的 进程 组 改 为 pgid。 如 果 pid 是 0， 那 么 就 使 用 当前 进程 的 PID。 
如 果 pgid 是 0， 那 么 就 用 pid 指定 的 进程 的 PID 作为 进程 组 ID。 例 如， 如 果 进 程 15213 是 调 
用 进程 ， 那 么 


锣 8 莫 朋党 扔 出 流 307 


setpgid(0, 0); 


会 创建 一 个 新 的 进程 组 ， 其 进程 组 ID 是 15213， 并 且 把 进程 15213 加 入 到 这 个 新 的 进程 组 中 。 
2. 用 /bin/ki11 程序 发 送信 号 
/bin/kill 程序 可 以 向 另外 的 进程 发 送 任意 的 信号 。 比 如 ， 命 令 


Unix> /bin/kill -9 15213 


发 送信 号 9 (SIGKILL ) 给 进程 13213 。 一 个 为 负 的 PID 会 导致 信号 被 发 送 到 进程 组 PID 中 的 每 
个 进程 。 比 如 ， 命 令 


unix> /bin/kill -9 -15213 


发 送 一 个 SIGKILL 信号 给 进程 组 15213 中 的 每 个 进程 。 注 意 ， 在 此 我 们 使 用 完整 路 径 /bin/ 
kill1， 因 为 有 些 Unix 外 壳 有 自己 内 置 的 kill 命令 。 

3. 从 键盘 发 送信 号 

Unix 外 这 使 用 作业 〈job) 这 个 抽象 概念 来 表示 为 对 一 个 命令 行 求 值 而 创建 的 进程 。 在 任何 
时 刻 ， 至 多 只 有 一 个 前 台 作 业 和 0 个 或 多 个 后 台 作 业 。 比 如 ， 键 人 


unix> 1s | sort 


创建 一 个 由 两 个 进程 组 成 的 前 台 作 业 ， 这 两 个 进程 是 通过 Unix 管道 连接 起 来 的 : 一 个 进程 运行 
1s 程序 ， 另 一 个 运行 sort 程序 。 

外 壳 为 每 个 作业 创建 一 个 独立 的 进程 组 。 典 型 地 ， 进 程 组 ID 是 取 自 作业 中 父 进程 中 的 一 
个 。 比 如 ， 图 8-27 展示 了 有 一 个 前 台 作 业 和 两 个 后 人 台 作 业 的 外 壳 。 前 台 作 业 中 的 父 进程 PID 为 
20， 进 程 组 ID 也 为 20。 父 进程 创建 两 个 子 进程 ， 每 个 也 都 是 进程 组 20 的 成 员 。 


#include <sys/types.h> 
#include <signal.h> 


int kill(pid_t pid, int sig); 
返回 : 若 成 功 则 为 0，: 若 错误 则 为 一 1 。 









! pid=20 
IPgid=20 






! pid=40 
! pgid=40 


! pid=32 
! pgid=32) 


Se mm one a ee ome op eam en ep ee 0 ra wr ep re 


pid=21 pid=22 | 
pgid=20 pgid=20 | 


ee pe em et ee en pam en em ee em pe eat em pm oo 


前 台 进 程 组 20 


图 8-27 前 台 和 后 台 进 程 组 
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在 键盘 上 输入 ctr1-c 会 导致 一 个 SIGINT 信和 号 被 发 送 到 外 壳 。 外 壳 捕获 该 信号 〈 人 参见 
8.5.3 节 )， 然 后 发 送 SIGINT 信和 号 到 这 个 前 台 进 程 组 中 的 每 个 进程 。 在 默认 情况 下 ， 结 果 是 终止 
前 台 作 业 。 类 似 地 ， 输 入 ctr1-z 会 发 送 一 个 SIGTSTP 信号 到 外 壳 ， 外 壳 捕获 这 个 信和 号， 并 发 
送 SIGTSTP 信和 号 给 前 台 进 程 组 中 的 每 个 进程 。 在 默认 情况 下 ， 结 果 是 停止 〈 挂 起 ) 前 台 作 业 。 

4. 用 kil1 函数 发 送信 号 

进程 通过 调用 ki11 函数 发 送信 号 给 其 他 进程 〈 包 括 它们 自己 )。 

”如 果 pid 大 于 零 ， 那 么 kil1 函数 发 送信 号 sig 给 进程 pidq。 如 果 pid 小 于 零 ， 那 么 
kill 发 送信 号 sig 给 进程 组 abs (pid) 中 的 每 个 进程 。 图 8-28 展示 了 一 个 示例 ， 父 进程 用 
kKill 函数 发 送 SIGKILL 信号 给 它 的 子 进程 。 


code/ecf/kill.c 
1 #include "csapp.h" | 
2 
3 int main() 
4 二 
5 pid.t pid,; 
6 - 
7 /* Child sleeps until SIGKILL signal received, then dies */ 
8 if ((pid = Fork()) == 0) { 
9 Pause(); /* Wait for a signal to arrive */ 
10 printf("control should never reach here!\n'"); 
11 exit (0); : 
12 } 
13 
14 /* Parent sends a SIGKILL signal to a child */ 
15 * Kill(pid, SIGKILL); 
16 exit(0); . 
17 3} 


code/ecf/kill.c 
图 8-28 使 用 kill 函数 发 送信 和 号 给 子 进 程 


5. 用 alarm 函数 发 送信 和 号 
进程 可 以 通过 调用 alarm 函数 四 它 目 己 发 送 SIGALRM 信号 。 


#include <unistd.h> 






unsigned :int alarm(unsigned int secs); 


返回 : 前 一 次 闹钟 剩余 的 秒 数 ， 若 以 前 没有 设 定 闹钟 ， 则 为 0。 





alarm 晴 数 安排 内 核 在 secs 秒 内 发 送 一 个 SIGALRM 信号 给 调用 进程 。 如 果 secs 是 
零 ， 那 么 不 会 调度 新 的 闹钟 (alarm)。 在 任何 情况 下 ， 对 alarm 的 调用 都 将 取消 任何 待 处 理 的 
(pending) 益 钟 ， 并 且 返 回 任何 待 处 理 的 闹钟 在 被 发 送 前 还 剩 下 的 秒 数 (如 果 这 次 对 alarm 的 
调用 没有 取消 它 的 话 )， 如 果 没 有 任何 待 处 理 的 闹钟 ， 就 返回 零 。 

图 8-29 展示 了 一 个 叫做 alarm 的 程序 ， 它 安排 自己 被 SIGALRM 信号 在 5 秒 内 每 秒 中 断 一 
次 。 当 传送 第 6 个 SIGALRM 信号 时 ， 它 就 终止 。 当 我 们 运行 图 8-29 中 的 程序 时 ， 我 们 得 到 以 
下 的 输出 : 5 秒 内 每 秒 一 个 “BEEP”， 后 面 跟随 着 程序 终止 时 的 一 个 “BOOM ”: 


unix> ./alarm 


BEEP 
BEEP 
BEEP 
BOOM! 


注意 ， 图 8-29 中 的 程序 使 用 signal 吗 数 设置 了 一 个 信号 处 理 函 数 〈(handler)， 只 要 进 
程 收 到 一 个 SIGALRM 信号 ， 就 异步 地 调用 该 函数 ， 中 断 main 程序 中 的 无 限 while 循环 。 当 
handler 返回 时 ， 控 制 传递 回 main 函数 ， 它 就 从 当初 被 信号 到 达 时 中 断 了 的 地 方 继续 执行 。 
设置 和 使 用 信和 号 处 理 程序 可 能 是 相当 微妙 的 ， 这 将 是 下 面 几 节 讨 论 的 主题 。 


od 
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8.5.3 接收 信和 号 


code/ecf/alarm.c 


#include "csapp.h" 


void handler(int sig) 


{ 


int 


static int beeps = 0; 


printf ("BEEP\n'); 
if (++beeps < 5) 
Alarm(1) ; /* Next SIGALRM will be delivered in 1 second */ 
else { 
printf ("BOOM! \n"); 
exit (0); 
了 


main() 
Signal (SIGALRM, handler); /* Instal1 SITGALRM handler */ 
Alarm(1); /* Next SIGALRM will be delivered in 1S */ 


while (1) { 
; /* Signal handler returns Control here each time */ 


} 
exit(0):; 


code/ecf/alarm.c 


图 8-29 使 用 alarm 函数 来 调度 周期 性 事件 


当 内 核 从 一 个 异常 处 理 程序 返回 ， 准 备 将 控制 传递 给 进程 p 时 ， 它 会 检查 进程 p 的 未 被 阻塞 
的 待 处 理 信 号 的 集合 (pendingg~blocked)。 如 果 这 个 集合 为 空 (通常 情况 下 )， 那 么 内 核 将 
控制 传递 到 的 逻辑 控制 流 中 的 下 一 条 指令 (Lo)。 

然而 ， 如 果 集 合 是 非 空 的 ， 那 么 内 核 选择 集合 中 的 某 个 信号 (通常 是 最 小 的 )， 并 且 强 制 
P 接收 信号 k。 收 到 这 个 信号 会 触发 进程 的 某 种 行为 。 一 旦 进程 完成 了 这 个 行为 ， 那 么 控制 就 传 
递 回 p 的 逻辑 控制 流 中 的 下 一 条 指令 (1.)。 每 个 信号 类 型 都 有 一 个 预定 义 的 默认 行为 ， 是 下 面 


中 的 一 种 : 


* 进程 终止。 


。 进程 终止 并 转 储存 储 器 (dump core )。 
。 进 程 停止 直到 被 SIGCONT 信号 重启 。 
。 进程 忽略 该 信和 号 。 
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8-25 展示 了 与 每 个 信号 类 型 相关 联 的 默认 行为 。 比 如 ， 收 到 SIGKILL 的 默认 行为 就 是 终止 接 
收 进程 。 另 外 ， 接 收 到 SIGCHLD 的 默认 行为 就 是 忽略 这 个 信和 号。 进程 可 以 通过 使 用 signal 项 
数 修改 和 信号 相关 联 的 默认 行为 。 唯 一 的 例外 是 SIGSTOP 和 SIGKILL， 它 们 的 默认 行为 是 不 能 
被 修改 的 。 


#include <signal.h> 
typedef void (*sighandler._t) (int); 


sighandler_t signal(int signunm, sighandler_t handler); 
返回 : 若 成 功 则 为 指向 前 次 处 理 程序 的 指针 ， 若 出 错 则 为 SIG_ERR (不 设置 errno)。 





signal 困 数 可 以 通过 下 列 三 种 方法 之 一 来 改变 和 信号 signum 相关 联 的 行为 : 

。 如 果 handler 是 SIG IGN， 那 么 忽略 类 型 为 signum 的 信号。 

。 如 果 handler 是 SIG_DFL， 那 么 类 型 为 signum 的 信号 行为 恢复 为 默认 行为 。 

,否则 ，handler 就 是 用 户 定义 的 函数 的 地 址 ， 这 个 函数 称 为 信号 处 理 程序 (signal 
handler)， 只 要 进程 接收 到 一 个 类 型 为 signum 的 信号 ， 就 会 调用 这 个 程序 。 通 过 把 处 理 
程序 的 地 址 传递 到 signal 函数 从 而 改变 默认 行为 ， 这 叫做 设置 信号 处 理 程序 (installing 
the handler)。 调 用 信号 处 理 程序 称 为 捕获 信号 。 执 行 信号 处 理 程序 称 为 处 理 信号 。 

当 一 个 进程 捕获 了 一 个 类 型 为 的 信号 时 ， 为 信号 设置 的 处 理 程序 被 调用 ， 一 个 整数 参数 被 设 
置 为 上。 这 个 参数 允许 同一 个 处 理 函 数 捕获 不 同类 型 的 信号。 

当 处 理 程 序 执行 它 的 return 语句 时 ， 控 制 (通常 ) 传递 回 控制 流 中 进程 被 信号 接收 中 断 
位 置 处 的 指令 。 我 们 说 “通常 ”是 因为 在 某 些 系统 中 被 中 断 的 系统 调用 会 立即 返回 一 个 错误 。 

图 8-30 展示 了 一 个 程序 ， 它 捕获 用 户 在 键盘 上 输入 ctz1-c 时 外 碗 发 送 的 SIGINT 信和 号。 
SIGINT 的 默认 行为 是 立即 终止 该 进程 。 在 这 个 示例 中 ， 我 们 将 默认 行为 修改 为 捕获 信号 ， 输 出 
一 条 信息 ， 然 后 终止 该 进程 。 


code/ecf/sigintl.c 

1 #include "csapp.h" 

2 

3 void handler(int sig) /* SIGINT handler */ 

| 

5 printf ("Caught SIGINT\n"); 

6 exit (0); 

7  )} 

8 

9 int main() 
10 攻 

11 /* Install the SIGINT handler */ 
12 if (signal(SIGINT, handler) == SIG_ERR) 
13 unix_error("signal error'"); 
14 
15 pause(); /* Wait for the receipt of a signal */ 
16 
17 exit (0); 
18 
code/ecf/sigintl.c 


图 8-30 ”一 个 用 信号 处 理 程序 捕获 SIGINT 信号 的 程序 
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处 理 程序 函数 定义 在 第 3 一 7 行 中 。 主 函数 在 第 12 ~ 13 行 设 置 处 理 程序 ， 然 后 进入 体 了 眼 
状态 ， 直 到 接收 到 一 个 信号 〈 第 15 行 )。 当 收 到 SIGINT 信号 时 ， 运 行 处 理 程序 ， 输 出 一 条 信息 
(第 5 行 )， 然 后 终止 这 个 进程 〈 第 6 行 )。 

信号 处 理 程 序 是 计算 机 系统 中 并 发 的 又 一 个 示例 。 信号 处 理 程序 的 执行 中 断 main C 函数 的 
执行 ， 类 似 于 低层 异常 处 理 程序 中 断 当前 应 用 程序 的 控制 流 的 方式 。 因 为 信号 处 理 程序 的 逻辑 控 
制 流 与 主 函数 的 逻辑 控制 流 重 和 要， 信和 号 处 理 程序 和 主 函 数 并 发 地 运行 。 
练习 题 8.7 ”编写 一 个 叫做 snooze 的 程序 ， 有 一 个 命令 行 参数 ， 用 这 个 参数 调用 练习 题 8.5 中 的 snooze 

函数 ， 然 后 终止 。 编 写 程序 ， 使 得 用 户 可 以 通过 在 键盘 上 输入 ctrl-c 中 断 snooze 函数 。 比 如 : 





Unix> ./snooze 5 
Slept for 3 of 5 secs. User hits crtl-c after 3 seconds 
unix> 


8.5.4 信号 处 理 问 题 

对 于 只 捕获 一 个 信号 并 终止 的 程序 来 说 ， 信 和 号 处 理 是 简单 直接 的 。 然 而 ， 当 一 个 程序 要 捕获 
多 个 信号 时 ， 一 些 细微 的 问题 就 产生 了 。 

* 待 处 理 信号 被 阻塞 。Unix 信号 处 理 程序 通常 会 阻塞 当前 处 理 程序 正在 处 理 的 类 型 的 待 处 理 

信号 。 比 如， 假设 一 个 进程 捕获 了 一 个 SIGINT 信号 ， 并 且 当 前 正在 运行 它 的 SIGINT 处 
理 程 序 。 如 果 另 一 个 SIGINT 信号 传递 到 这 个 进程 ， 那 么 这 个 SIGINT 将 变 成 待 处 理 的 ， 
但 是 不 会 被 接收 ， 直 到 处 理 程 序 返 回 。 

。 待 处 理 信号 不 会 排队 等 待 。 任 意 类 型 至 多 只 有 一 个 待 处 理 信和 号。 因此， 如 果 有 两 个 类 型 为 
的 信号 传送 到 一 个 目的 进程 ， 而 由 于 目的 进程 当前 正在 执行 信号 的 处 理 程序 ， 所 以 信 
号 是 阻塞 的 ， 那 么 第 二 个 信号 就 被 简单 地 丢弃 ， 它 不 会 排队 等 待 。 关 键 思想 是 存在 一 个 
待 处 理 的 信和 号 仅仅 表明 至 少 已 经 有 一 个 信号 到 达 了 。 

“系统 调用 可 以 被 中 断 。 像 read、wait 和 accept 这样 的 系统 调用 潜在 地 会 阻塞 进程 一 段 
较 长 的 时 间 ， 称 为 慢 速 系统 调用 。 在 某 些 系统 中 ， 当 处 理 程序 捕获 到 一 个 信号 时 ， 被 中 断 
的 慢 速 系统 调用 在 信和 号 处 理 程序 返回 时 不 再 继续 ， 而 是 立即 返回 给 用 户 一 个 错误 条 件 ， 并 
将 errno 设置 为 EINTR。 

让 我 们 利用 一 个 简单 的 应 用 程序 更 深入 地 看 看 信号 处 理 的 细微 之 处 ， 这 个 应 用 程序 本 质 上 类 
似 于 外 壳 和 Web 服务 器 这 样 的 真实 程序 。 基 本 的 结构 是 一 个 父 进 程 创建 一 些 子 进程 ， 这 些 子 进 
程 独立 运行 一 会 儿 ， 然 后 终止 。 父 进程 必须 回收 子 进程 ， 以 避免 在 系统 中 留 下 伪 死 进程 。 但 是 我 
们 也 想 让 父 进程 在 子 进程 运行 时 可 以 自由 地 做 其 他 工作 。 所 以 ， 我 们 决定 用 SIGCHLD 处 理 程 序 
回收 子 进程 ， 而 不 是 显 式 地 等 待 子 进程 终止 。( 回 想 一 下 ， 只 要 有 一 个 子 进程 终止 或 者 停止 ， 内 
核 就 会 发 送 一 个 SIGCHLD 信号 给 父 进程 。) 

图 8-31 展示 了 我 们 的 第 一 次 尝试 。 父 进程 设置 了 一 个 SIGCHLD 处 理 程序 ， 然 后 创建 了 三 
个 子 进程 ， 其 中 每 个 子 进程 运行 1 秒 ， 然 后 终止 。 同 时 ， 父 进程 等 待 来 自 终端 的 一 个 输入 行 ， 
随后 处 理 它 。 这 个 处 理 被 模型 化 为 一 个 无 限 循 环 。 当 每 个 子 进程 终止 时 ， 内 核 通 过 发 送 一 个 
SIGCHLD 信号 通知 父 进程 。 父 进程 捕获 这 个 SIGCHLD 信和 号， 回收 一 个 子 进程 ， 做 一 些 其 他 的 
清除 工作 (模型 化 为 sleep (2) 语句 )， 然 后 返回 。 

图 8-31 中 的 signall 程序 看 起 来 相当 简单 。 然 而 ， 当 在 Linux 系统 上 运行 它 时 ， 我 们 得 到 
如 下 输出 : | 

linux> ./signall 


Hello from child 10320 
Hello from child 10321 
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Hello from child 10322 
Handler reaped child 10320 
Handler reaped child 10322 


<cr> 


Parent processing input 


‘CO PNR BB N 一 
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#include "csapp.h" 


code/ecf/signall.c 


void handleri(int sig) 


{ 


int 


pid_t Pid; 


if ((pid = waitpid(-1, NULL, 0)) < 0) 
unix_error("waitpid error"); 

printf ("Handler reaped child %d\n", (int)pid); 

Sleep (2); 

return,; 


main() 


“int i, n; 


char buf [MAXBUF] ; 


if (signal(SIGCHLD, handler1) == SIG_ERR) 
unix. error("signal. error'"); 


/* Parent creates children */ 
for (i = 0; i < 3; i++) { 
if (Fork() == 0) { 
printf ("Hello from child %d\n", (int)getpid()); 
Sleep (1); 
exit (0); 


} 


/* Parent waits for terminal input and then processes it */ 


if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
unix_error ("read"); 


printf ("Parent processing input\n'); 


while (1) 


3 


exit(0); 


code/ecf/signall.c 


图 8-31 signall :; 这 个 程序 是 有 缺陷 的 ， 因 为 它 无 法 处 理 信 号 阻塞 、 信 和 号 不 排队 等 待 和 系统 调用 被 
中 断 这 些 情 况 


从 输出 中 我 们 注意 到 ， 尽 管 发 送 了 3 个 SIGCHLD 信和 号 给 父 进程 ， 但 是 其 中 只 有 两 个 信号 被 接收 
了 ， 因 此 父 进程 只 是 回收 了 两 个 子 进程 。 如 果 挂 起 父 进 程 ， 我 们 看 到 ， 实 际 上 子 进程 10321 没有 
被 回收 ， 而 是 成 为 了 一 个 僵 死 进程 〈 在 ps 命令 的 输出 中 由 字符 串 “defunct” 表 示 ): 
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<ctril-2z> 

Suspended 

linux> ps 

PID TTY STAT TIME COMMAND 


10319 p5T 0:03 signall 
10321 p5 2 0:00 signall <defunct> 
10323 p5 RR 0:00 ps 


哪里 出 错 了 呢 ? 问 题 就 在 于 我 们 的 代码 没有 解决 信和 号 可 以 阻塞 和 不 会 排队 等 待 这 样 的 情况 。 发 生 
的 情况 是 : 父 进 程 接 收 并 捕获 了 第 一 个 信号 。 当 处 理 程序 还 在 处 理 第 一 个 信号 时 ， 第 二 个 信和 号 就 
传送 并 添加 到 了 待 处 理 信 号 集合 里 。 然 而 ， 因 为 SIGCHLD 信号 被 SIGCHLD 处 理 程序 阻塞 了 ， 
所 以 第 二 个 信号 就 不 会 被 接收 。 此 后 不 入 ， 就 在 处 理 程序 还 在 处 理 第 一 个 信号 时 ， 第 三 个 信和 号 到 
达 了 。 因 为 已 经 有 了 一 个 待 处 理 的 SIGCHLD， 第 三 个 SIGCHLD 信号 会 被 丢弃 。 一 段 时 间 之 后 ， 
处 理 程序 返回 ， 内 核 注意 到 有 一 个 待 处 理 的 SIGCHLD 信号 ， 就 迫使 父 进 程 接收 这 个 信号 。 父 进 
程 捕获 这 个 信和 号， 并 第 二 次 执行 处 理 程序 。 在 处 理 程序 完成 对 第 二 个 信和 号 的 处 理 之 后 ， 已 经 没有 
待 处 理 的 SIGCHLD 信号 了 ， 而 且 也 绝 不 会 再 有 ， 因 为 第 三 个 SIGCHLD 的 所 有 信息 都 已 经 丢失 
了 。 由 此 得 到 的 重要 教训 是 ， 不 可 以 用 信号 来 对 其 他 进程 中 发 生 的 事件 计数 。 

为 了 修正 这 个 问题 ， 我 们 必须 回想 一 下 ， 存 在 一 个 待 处 理 的 信号 只 是 暗示 自 进程 最 后 一 次 收 
到 一 个 信号 以 来 ， 至 少 已 经 有 一 个 这 种 类 型 的 信号 被 发 送 了 。 所 以 我 们 必须 修改 SIGCHLD 处 理 
程序 ， 使 得 每 次 SIGCHLD 处 理 程序 被 调用 时 ， 回 收 尽 可 能 多 的 伪 死 子 进程 。 图 8-32 展示 了 修 
改 后 的 SIGCHLD 处 理 程序 。 当 我 们 在 Linux 系统 上 运行 signal2 时 ， 它 现在 可 以 正确 地 回收 
所 有 的 僵 死 子 进程 了 : 


linux> ./signal2 

Hello from child 10378 
Hello from child 10379 
Hello from child 10380 
Handler reaped child 10379 
Handler reaped chil1d 10378 
Handler reaped child 10380 
<cr> 

Parent processing input 


然而 ， 我 们 还 没有 完成 任务 。 如 果 我 们 在 一 个 较 老 版 本 的 Solaris 操作 系统 上 运行 signal2 
程序 ， 它 会 正确 地 回收 所 有 的 僵 死 子 进程 。 然 而 现在 ， 在 从 键盘 上 进行 输入 之 前 ， 被 胆寒 的 
read 系统 调用 就 提前 返回 一 个 错误 : 


solaris> ./signal2 

Hello from child 18906 

Hello from child 18907 

Hello from child 18908 
Handler reaped child 18906 
Handler reaped child 18908 
Handler reaped child 18907 
read: Interrupted system call 


出 了 什么 问题 呢 ? 出 现 这 个 问题 是 因为 在 特定 的 Solaris 系统 上 ， 诸 如 read 这 样 的 慢 速 系 


统 调用 在 被 信号 发 送 中 断后 ， 是 不 会 自动 重启 的 。 相 反 ， 和 Linux 系统 自动 重启 被 中 断 的 系统 调 
用 不 同 ， 它 们 会 提前 返回 给 调用 应 用 程序 一 个 错误 条 件 。 
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code/ecf/signal2.c 
1  #include "csapp.h" 
2 
3 void handler2(int sig) 
4 + 
5 pid_t Pid; 
6 
7 while ((pid = waitpid(-1, NULL, 0)) > 0) 
8 printf ("Handler reaped child %d\n", (int)pid); 
9 if (errno != ECHILD) 
10 unix_error("waitpid error'"); 
11 Sleep(2) ; 
12 return; 
3 
14 
15 int main() 
16 + 
17 int i, n; 
18 char buf [MAXBUF] ; 
19 
20 if (signal(SIGCHLD, handler2) == SIG_ERR) 
21 unix_error('"signal error'"); 
22 
23 /* Parent creates children */ 
24 for (i = 0; i < 3; i++) + 
25 if (Fork() == 0) { 
.26 printf ("Hello from child %d\n", (int)getpid()); 
27 Sleep(1); 
28 exit (0); 
29 } 
30 } 
31 
32 /* Parent waits for terminal input and then processes it */ 
33 if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
34 unix_error('"read error'); 
35 
36 printf ("Parent processing input\n'"); 
37 while (1) 
38 - 
39 
40 exit (0); 
41 | 


code/ecf/signal2.c 


图 8-32 signal2 : 图 8-31 的 一 个 改进 版 本 ， 它 能 够 正确 解决 信号 会 阻塞 和 不 会 排队 等 待 的 情况 。 
然而 ， 它 没有 考虑 系统 调用 被 中 断 的 可 能 性 


为 了 编写 可 移植 的 信和 号 处 理 代码 ， 我 们 必须 考虑 系统 调用 过 早 返 回 的 可 能 性 ， 然 后 当 它 发 
生 时 手动 重启 它们 。 图 8-33 展示 了 对 signal2 的 修改 ， 它 会 手动 地 重启 被 终止 的 read 调用 。 
errno 中 的 EINTR 返回 代码 表明 read 系统 调用 在 它 被 中 断后 提前 返回 了 。 

当 我 们 在 一 台 Solaris 系统 上 运行 新 的 signal3 程序 时 ， 程 序 会 正确 运行 : 


solaris> ./signal3 

Hello from child 19571 
Hello from child 19572 
Hello from child 19573 
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Handler reaped child 19571 
Handler reaped child 19572 
Handler reaped child 19573 
<cr> 

Parent processing input 





code/ecf/signal3.c 

1 #include "csapp.h" 

2 

;void handler2(int sig) 

4 荆 

5 pid_t Pid; 和 

6 

7 while ((pid = waitpid(-1, NULL, 0)) > 0) 

8 printf ("Handler reaped child %d\n", (int)pid); 

9 if (errno != ECHILD) 
10 unix_error('"waitpid error"); 

11 Sleep(2) ; 

12 return; 

13 3} 

14 

15 int main() { 

16 int i, n; 

17 char buf [MAXBUF] ; 

18 pid_t pid; 

19 
20 if (signal(SIGCHLD, handler2) == SIG_ERR) 
21 unix_error("signal error'"); 
22 
23 /* Parent creates children +*/ 
24 for (i = 0; i < 3; i++) 
25 pid = Fork() ; 
26 if (pid == 0) { 
27 printf ("Hello from child %d\n", (int)getpid()); 
28 Sleep(1) ; 
29 exit (0); 

30 } 

31 
32 

33 /* Manually restart the read call if it is interrupted */ 
34 while ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
& 35 if (errno != EINTR) 

36 nix_error('read error'); 

37 

38 printf ("Parent processing input\n"); 

39 while (1) 
40 ; 
41 
42 exit (0); 
43 





ode na 
图 8-33 signal3 : 图 8-32 的 一 个 改进 版 本 ， 它 正确 地 解决 了 系统 调用 可 能 被 中 断 的 情况 





练习 题 8.8 下面 这 个 程序 的 输出 是 什么 ? 


S13 
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code/ecf/signalprobO.c 
1 pid_t pid; z 
2 int counter = 2; 
3 
4 void handleri(int sig) { 
5 counter = counter - 1; 
6 printf("%d", counter); 
7 fflush(stdout); 
8 exit(0); 
9 } 
10 
11 int main() { 
12 signal (SIGUSR1, handler1); 
13 
14 printf("%d", counter); 
15 fflush(stdout); 
16 
17 ~ if ((pid = fork()) == 0) { 
18 while(1) {}; 
19 } 
20 kill(pid, SIGUSR1); 
21 waitpid(-1, NULL, 0); 
22 counter = counter + 1; 
23 printf("%d", counter); 
24 exit (0); 
25 
code/ecf/signalprob0.c 


8.5.5 可 移植 的 信号 处 理 

不 同系 统 之 间 ， 信 号 处 理 语义 的 差异 (比如 一 个 被 中 断 的 慢 速 系统 调用 是 重启 还 是 永久 放弃 ) 
是 Unix 信号 处 理 的 一 个 缺陷 。 为 了 处 理 这 个 问题 ，Posix 标准 定义 了 sigaction 函数 ， 它 允许 像 
Linux 和 Solaris 这 样 与 Posix 兼容 的 系统 上 的 用 户 ， 明 确 地 指定 他 们 想 要 的 信号 处 理 语义 。 


#include <signal.h> 


int sigaction(int signum, struct sigaction *act, 


struct sigaction *oldact); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





sigaction 函数 运用 并 不 广泛 ， 因 为 它 要求 用 户 设 置 多 个 结构 条 目 。 一 个 更 简洁 的 方 
式 ， 最 初 是 由 W.Richard Stevens 提出 的 [109]， 就 是 定义 一 个 包装 函数 ， 称 为 Signal， 它 调用 
sigaction。 图 8-34 给 出 了 Signal 的 定义 ， 它 的 调用 方式 与 signal 函数 的 调用 方式 一 样 。 
Signal 包装 函数 设置 了 一 个 信号 处 理 程序 ， 其 信和 号 处 理 语 义 如 下 : 
。 只 有 这 个 处 理 程序 当前 正在 处 理 的 那 种 类 型 的 信和 号 被 阻塞 。 
。 和 所 有 信号 实现 一 样 ， 信 号 不 会 排队 等 待 。 
。 只 要 可 能 ， 被 中 断 的 系统 调用 会 自动 重启 。 
“一 旦 设置 了 信和 号 处 理 程序 ， 它 就 会 一 直 保 持 ， 直 到 Signal 带 着 handler 参数 为 SIG_ 
IGN 或 者 SIG_DFL 被 调用 。( 一 些 比 较 老 的 'Unix 系统 会 在 一 个 处 理 程 序 处 理 完 一 个 信号 
之 后 ， 将 信号 行为 恢复 为 它 的 默认 行为 。) 
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code/src/csapp.c 
1 handler.t *Signal(int signum, handler_t *handler) 
2 
3 struct sigaction action, old_action; 
, ; 
5 action.Sa_handler = handler; ; 
6 sigemptyset (&action.sa_mask); /* Block sigs of type being handled */ 
7 action.sa_flags = SA_RESTART; /* Restart syscalls if possible */ 
8 ， 
9 if (sigaction(signum, &action, &old_action) < 0) 
10 unix_error("Signal error'"); 


11 return (old_action.sa_handler) ; 
12 } 
code/src/csapp.c 


图 8-34 Signal : sigaction 的 一 个 包装 函数 ， 它 提供 在 Posix 兼容 系统 上 的 可 移植 的 信号 处 理 


图 8-35 展示 了 图 8-32 中 signal2 程序 的 一 个 版 本 ， 该 版 本 使 用 Signal 包装 函数 在 不 
同 的 计算 机 系统 上 获得 可 预测 的 信号 处 理 语义 。 唯 一 的 区 别 是 通过 调用 Signal 而 不 是 调用 
signal 来 设置 处 理 程序 。 现 在 ， 程 序 既 可 以 在 Solaris 系统 上 也 可 EL Linux 系统 上 正确 运行 
了 ， 而 我 们 也 不 再 需要 手动 地 重启 被 中 断 的 read 系统 调用 了 。 
8.5.6 ” 显 式 地 阻塞 和 取消 阻塞 信号 

应 用 程序 可 以 使 用 sigprocmask 函数 显 式 地 阻塞 和 取消 阻塞 选择 的 信号 : 


#include <signal.h> 


sigprocmask(int how, const sigset_t *set, sigset_t *oldset) ; 
sigemptyset (sigset_t *set); 

sigfillset (sigset_t *set); 

sigaddset (sigset_t *set, int signum); 

sigdelset (sigset_t *set, int signum); 


返回 : 如 果 成 功 则 为 0， 若 出 错 则 为 一 1。 


sigismember(const sigset_t *set, int signum); 


返回 : 若 signum 是 sef 的 成 员 则 为 1， 如 果 不 是 则 为 0， 若 出 错 则 为 一 1。 





sigprocmask 肾 数 改变 当前 已 阻塞 信号 的 集合 (8.5.1 节 中 描述 的 blocked 位 向 量 )。 具 
体 的 行为 依赖 于 how 的 值 : 

。SIG BLOCK ; 添加 set 中 的 信号 到 blocked 中 (blocked = ES | set )。 

。SIG. UNBLOCK :; 从 blocked 中 删除 set 中 的 信号 (blocked = blocked & ~set)。 

* SIG SETMASK : blocked= set。 

如 果 oldset 非 空 ，blocked 位 向 量 以 前 的 值 会 保存 在 oldset 中 。 

可 以 使 用 下 列 函 数 操作 像 set 这 样 的 信号 集合 。sigemptyset 初始 化 set 为 空 集 。 
sigfillset 函数 将 每 个 信号 添加 到 set 中 。sigaddset 函数 添加 signum 到 set,， sigdelset 
从 set 中 删除 signum， 如 果 signum 是 set 的 成 员 ， 那 么 sigismember 返回 1， 否 则 返回 0。 
8.5.7 ”同步 流 以 避免 讨厌 的 并 发 错误 

如 何 编写 读 写 相同 存储 位 置 的 并 发 流程 序 的 问题 ， 困 扰 着 数 代 计算 机 科学 家 。 一 般 而 言 ， 流 
可 能 交错 的 数量 是 与 指令 的 数量 呈 指 数 关系 的 。 这 些 交 错 中 的 一 些 会 产生 正确 的 结果 ; 而 有 些 则 
不 会 。 基 本 的 问题 是 以 某 种 方式 同 步 并 发 流 ， 从 而 得 到 最 大 的 可 行 的 交错 的 集合 ， 每 个 可 行 的 交 
错 都 能 得 到 正确 的 结果 。 
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code/ecf/signal4.c 
] #include "csapp.h" 
2 
3 void handler2(int sig) 
4 
5 pid_t pid; 
6 
7 while ((pid = waitpid(~1, NULL, 0)) > 0) 
8 printf ("Handler reaped child %d\n", (int)pid); 
9 if (errno != ECHILD) 
10 unix_error ("waitpid error"); 
11 Sleep(2) ; 
12 return; 
13 
14 
15 int main() 
16 攻 
17 int i, n; 
18 char buf [MAXBUF] ; 
19 pid_t pid; 
20 
21 Signal (SIGCHLD, handler2); /* sigaction error-handling wrapper */ 
22 
23 /* Parent creates children */ 
24 for (i = 0; i < 3; i++) { 
25 pid = Fork(); 
26 if (pid == 0) { 
27 printf ("Hello from child %d\n", (int)getpid()); 
28 Sleep(1); 
29 exit (0); 
30 } 
31 } 
32 
33 /* Parent waits for terminal input and then processes it */ 
34 if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
35 unix_error('"read error"); 
36 
37 printf("Parent processing input\n'"); 
.38 while (1) 
39 和 
40 exit(0); 
41 } 
code/ecf/signal4.c 


8-35 signal4 : 图 8-32 的 一 个 版 本 ， 该 版 本 通过 使 用 Signal 包装 函数 得 到 可 移植 的 信号 处 理 语 义 


并 发 编程 是 一 个 很 深奥 且 很 重要 的 问题 ， 我 们 将 在 第 12 章 中 更 详细 地 讨论 。 不 过 ， 在 本 章 
中 学 习 到 的 有 关 异 常 控制 流 的 知识 ， 可 以 让 你 感觉 一 下 与 并 发 相关 的 有 趣 的 智力 挑战 。 例 如 ， 考 
虑 图 8-36 中 的 程序 ， 它 总 结 了 一 个 典型 的 Unix 外 壳 的 结构 。 父 进程 在 一 个 作业 列表 中 记录 着 它 
的 当前 子 进程 ， 每 个 作业 一 个 条 目 。addjob 和 deletejob 函数 分 别 回 这 个 作业 列表 添加 和 从 
中 删除 作业 。 

当 父 进 程 创 建 一 个 新 的 子 进程 时 ， 它 就 把 这 个 子 进 程 添 加 到 作业 列表 中 。 当 父 进 程 在 
SIGCHLD 处 理 程序 中 回收 一 个 终止 的 〈( 伪 死 ) 子 进程 时 ， 它 就 从 作业 列表 中 删除 这 个 子 进程 。 
乍 一 看 ， 这 段 代 码 看 上 去 是 对 的 。 不 幸 的 是 ， 可 能 发 生 下 面 的 情况 : 
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code/ecf/procmaskl.c 


void handler(int sig) 


1 

2 攻 

3 pid_t pid; 

4 while ((pid = waitpid(-1, NULL, 0)) > 0) /* Reap a zombie child */ 
5 deletejob(pid); /* Delete the child from the job list */ 

6 if (errno != ECHILD) 

7 unix_error("waitpid error" ) ; 

8 


10 int main(int argc, char **argVv) 


11 攻 

12 int pid; 

13 

14 Signal (SIGCHLD, handler); 

15 initjobs(); /* Initialize the job list */ 
15 | 

17 while (1) { 

18 js Child process */ 

19 if ((pid = Fork()) == 0) { 

20 Execve("/bin/date", argv, NULL); 
21 } 

22 

23 . /* Parent process */ 

24 addjob(pid); /+* Add the cpild to the job list */ 
25 } 

26 exit (0); 

27 } 


code/ecf/procmaskl.c 


图 8-36 ”一 个 具有 细微 同步 错误 的 外 壳 程序 。 如 果子 进程 在 父 进程 能 够 开始 运行 前 就 结束 了 ， 那 么 
addjob 和 deletejob 会 以 错误 的 方式 被 调用 


1) 父 进程 执行 fork 函数 ， 内 核 调 度 新 创建 的 子 进 程 运 行 ， 而 不 是 父 进程 。 

2) 在 父 进程 能 够 再 次 运行 之 前 ， 子 进程 就 终止 ， 并 且 变 成 一 个 僵 死 进程 ， 使 得 内 核 传递 一 
个 SIGCHLD 信号 给 父 进程 。 

3) 后 来 ， 当 父 进程 再 次 变 成 可 运行 但 又 在 它 执行 之 前 ， 内 核 注意 到 待 处 理 的 SIGCHLD 信 
号 ， 并 通过 在 父 进程 中 运行 处 理 程序 接收 这 个 信和 号。 

4) 处 理 程 序 回收 终止 的 子 进程 ， 并 调用 deletejob， 这 个 函数 什么 也 不 做 ， 因 为 父 进程 
还 没有 把 该 子 进程 添加 到 列表 中 。 

5) 在 处 理 程序 运行 完毕 后 ， 内 核 运行 父 进程 ， 父 进程 从 fork 返回 ， 通 过 调用 addjob 错 
误 地 把 〈 不 存在 的 ) 子 进 程 添加 到 作业 列表 中 。 
因此 ， 对 于 父 进程 的 main 函数 流 和 信号 处 理 流 的 某 些 交错 ， 可 能 会 在 addjob 之 前 调用 deletejob。 这 
导致 作业 列表 中 出 现 一 个 不 正确 的 条 目 ， 对 应 于 一 个 不 再 存在 而 且 永 远 也 不 会 被 删除 的 作业 。 另 一 方面 ， 
也 有 一 些 交 错 ， 事 件 按照 正确 的 顺序 发 生 。 例 如 ， 如 果 在 fork 调用 返回 时 ， 内 核 刚 好 调度 父 进程 而 不 是 
子 进 程 运行 ， 那 么 父 进程 就 会 正确 地 把 子 进程 添加 到 作业 列表 中 ， 然 后 子 进程 终止 ， 信 和 号 处 理 函 数 把 该 作 
业 从 列表 中 删除 。 

这 是 一 个 称 为 竞争 〈race) 的 经 典 同步 错误 的 示例 。 在 这 种 情况 下 ，main 函数 中 调用 addjob 
和 处 理 程序 中 调用 deletejob 之 间 存 在 竞争 。 如 果 addjob 赢得 进展 ， 那 么 结果 就 是 正确 的 。 
如 果 它 没有 ， 那 么 结果 就 是 错误 的 。 这 样 的 错误 非常 难以 调试 ， 因 为 几乎 不 可 能 测试 所 有 的 交 
错 。 你 可 能 运行 这 段 代码 十 亿 次 ， 也 没有 一 次 错误 ， 但 是 下 一 次 测试 却 导致 引发 竞争 的 交错 。 
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8-37 展示 了 消除 图 8-36 中 的 竞争 的 一 种 方法 。 通 过 在 调用 fork 之 前 ， 阻 塞 SIGCHLD 
信和 号， 然后 在 我 们 调用 了 addjob 之 后 就 取消 阻塞 这 些 信 号 ， 我 们 保证 了 在 子 进程 被 添加 到 作 
业 列 表 中 之 后 回收 该 子 进程 。 注 意 ， 子 进程 继承 了 它们 父 进程 的 被 阻塞 集合 ， 所 以 我 们 必须 在 调 
用 execve 之 前 ， 小 心地 解除 子 进 程 中 阻塞 的 SIGCHLD 信号 。 


code/ecf/procmask2.c 


void handler(int sig) 


{ 


int 


} 


Pid_t pid,; 

while ((pid = waitpid(-1, NULL, 0)) > 0) /* Reap a zombie child */ 
deletejob(pid); /* Delete the child from the job list */ 

if (errno != ECHILD) 
unix_error("waitpid error'"); 


main(int argc, char **argv) 


int pid; 
sigset_t maSk ; 


Signal(SIGCHLD ，handler) ; 
initjobs(); /* Initialize the job list */ 


While (1) { 
Sigemptyset (&mask) ; 
Sigaddset (&mask, SIGCHLD); 
Sigprocmask (SIG_BLOCK, &mask, NULL); /* Block SIGCHLD */ 


/* Child process */ 

if ((pid = Fork()) == 0) 
Sigprocmask (SIG_UNBLOCK, &mask, NULL); /* Unblock SIGCHLD */ 
Execve("/bin/date", argv, NULL); 

} 


/* Parent process +*/ 
addjob(pid); /* Add the child to the job list */ 
Sigprocmask (SIG_UNBLOCK, &mask, NULL); /* Unblock SIGCHLD */ 


exit (0); 


code/ecf/procmask2.c 


图 8-37 用 sigprocmask 来 同步 进程 。 在 这 个 例子 中 ， 父 进程 保证 在 相应 的 deletejob 之 前 执行 addjob 


一 个 暴露 你 的 代码 中 竞争 的 简便 技巧 

像 图 8-36 中 那样 的 竞争 很 难以 发 现 ， 因 为 它们 依赖 于 与 内 核 相关 的 调度 决策 。 在 一 次 fork 
调用 之 后 ， 有 些 内 核 调度 子 进程 先 运行 ， 而 有 些 内 核 调度 父 进 程 先 运 行 。 如 果 你 要 在 后 一 种 系统 
上 运行 图 8-36 中 的 代码 ， 它 绝 不 会 失败 ， 无 论 你 测试 多 少 遍 。 但 是 一 旦 你 在 前 一 种 系统 上 运行 
这 段 代码 ， 那 么 竞争 就 会 暴露 出 来 ， 代 码 会 失败 。 图 8-38 展示 了 一 个 包装 函数 ， 饭 可 以 帮助 暴 
露 这 样 隐藏 着 的 关于 父 进 程 和 子 进程 执行 顺序 的 假设 。 其 基本 思想 是 每 次 调用 fork 之 后 ， 父 进 
程 和 子 进 程 扔 一 枚 硬币 决定 谁 会 休眠 一 会 儿 ， 因 此 给 另 一 个 进程 先 运 行 的 机 会 。 如 果 我 们 运行 这 
个 代码 多 次 ， 那 么 我 们 有 极 高 的 概 举 会 测试 到 父子 进程 执行 的 两 种 顺序 无论 这 个 特定 内 核 的 调 
度 策略 是 什么 样 的 。 . | 
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code/ecf/rfork.c 


#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
#include <sys/time.h> 
#include <sys/types.h> 


/* Sleep for a random period between [0, MAX_SLEEP] us. */ 
#define MAX_SLEEP 100000 


CJR NN” 


10  /* Macro that niaps val into the range [0O, RAND_MAX] */ 
11 #define CONVERT(val) (((double)val)/(double)RAND_MAX) 


12 
13 pid_t Fork(void) 
14 { 
15 static struct timeval time; 
16 | unsigned bool, secs; 
17 pid_t pid,; 
18 
19 /+ Generate a different seed each time the function is called.*/ 
20 gettimeofday (&time, NULL); 
21 srand (time. tv_usec) ; 
22 , : 
23 /+ Determine whether to sleep in parent of child and for how long */ 
24 bool = (unsigned) (CONVERT (rand()) + 0.5); 
25 secs = (unsigned) (CONVERT(rand()) * MAX_SLEEP) ; 
26 | 、 | 
7 /* Call the real fork function */ 
28 ~ if. ((pid = fork()) < 0) 
29 : ‘return pid; 
30 
3 nn decide to sleep in the parent or the child */ 
32 if (pid == 0) { /* Child */ 
33 if (bool) { 
34 六 usleep(secs); 
35 } 
36 } | 
37 else { /+ Parent */ 
38 | - if (lbool) + 
39 usleep(secs); 
40 3 
41 + 
42 
43， /*Return the. PID like a normal fork call Ry 
44 return pid; 


code/ecprfork. C 


图 8-38 fork 的 包装 函数 ， 它 随机 地 决定 父 进程 和 子 进程 执行 的 顺序 。 父 进程 和 子 进程 扔 一 枚 
硬币 来 决定 谁 会 休眠 ， 因 而 给 另 一 个 进程 被 调度 的 机 会 


8.6 非 本 地 跳 转 


C 语 言 提 供 了 一 种 用 户 级 异常 控制 流 形式 ， 称 为 非 本 地 跳 转 (nonlocal jump)， 它 将 控制 直 
接 从 一 个 函数 转移 到 另 一 个 当前 正在 执行 的 函数 ， 而 不 需要 经 过 正常 的 调用 一 返回 序列 。 非 本 
地 跳 转 是 通过 setjmp 和 Longjmp 函数 来 提供 的 。 
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#include <setjmp.h> 


int setjmp(jmp_buf env) ; 


int sigsetjmp(sigjmp_buf env, int savesigs); 





返回 : setjmp 返回 0，longjmp 返回 非 索 。 


setjmp 函数 在 env 缓冲 区 中 保存 当前 调用 环境 ， 以 供 后 面 longjmp 使 用 ， 并 返回 0。 调 
用 环境 包括 程序 计数 器 、 栈 指针 和 通用 目的 寄存 器 。 


#include “Setjmp .h> 


void 1ongjnmp(jnmnp_buf env, int retval); 


void siglongjmp(sigjmp_buf env, int retval); 





longjmp 函数 从 env 缓冲 区 中 恢复 调用 环境 ， 然 后 触发 一 个 从 最 近 一 次 初始 化 env 的 
setjmp 调用 的 返回 。 然 后 setjmp 返回 ， 并 带 有 非 零 的 返回 值 retval。 

第 一 眼看 过 去 , setjmp 和 Longjmp 之 间 的 相互 关系 令 人 迷惑 。setJjmp 函数 只 被 调用 一 次 ， 
但 返回 多 次 : 一 次 是 当 第 一 次 调用 setjmp， 而 调用 环境 保存 在 缓冲 区 env 中 时 ; 一 次 是 为 每 
个 相应 的 1ongjmp 调用 。 另 一 方面 ，1ongjmp 琐 数 被 调用 一 次 ， 但 从 不 返回 。 

非 本 地 跳 转 的 一 个 重要 应 用 就 是 允许 从 一 个 深层 舱 套 的 函数 调用 中 立即 返回 ， 通 常 是 由 检测 
到 某 个 错误 情况 引起 的 。 如 果 在 一 个 深层 舱 套 的 函数 调用 中 发 现 了 一 个 错误 ， 我 们 可 以 使 用 非 本 
地 跳 转 直接 返回 到 一 个 普通 的 本 地 化 的 错误 处 理 程序 ， 而 不 是 费力 地 解 开 调用 栈 。 

图 8-39 展示 了 一 个 示例 ， 说 明 这 将 是 如 何 工作 的 。main 函数 首先 调用 setjmp 以 保存 当前 
的 调用 环境 ， 然 后 调用 函数 foo，foo 依次 调用 函数 bar。 如 果 foo 或 bar 遇 到 一 个 错误 ， 它 
们 立即 通过 一 次 longjmp 调用 从 setjmp 返回 。setjmp 的 非 零 返回 值 指明 了 错误 类 型 ， 随 后 
可 以 被 解码 ， 且 在 代码 中 的 某 个 位 置 进行 处 理 。 

非 本 地 跳 转 的 另 一 个 重要 应 用 是 使 一 个 信号 处 理 程序 分 支 到 一 个 特殊 的 代码 位 置 ， 而 不 是 
返回 到 被 信号 到 达 中 断 了 的 指令 的 位 置 。 图 8-40 展示 了 一 个 简单 的 程序 ， 说 明了 这 种 基本 技术 。 
当 用 户 在 键盘 上 键 人 ctr1-c 时 ， 这 个 程序 用 信号 和 非 本 地 跳 转 来 实现 软 重 启 。sigsetJjmp 和 
siglongjmp 函数 是 setjmp 和 Longjmp 的 可 以 被 信号 处 理 程序 使 用 的 版 本 。 

在 程序 第 一 次 启动 时 ， 对 sigsetjmp 函数 的 初始 调用 保存 调用 环境 和 信和 号 的 上 下 文 〈 包 
括 待 处理 的 和 被 阻塞 的 信号 向 量 )。 随 后 ， 主 函数 进入 一 个 无 限 处 理 循环 。 当 用 户 键 入 ctr1-c 
时 ， 外 壳 发 送 一 个 SIGINT 信号 给 这 个 进程 ， 该 进程 捕获 这 个 信号 。 不 是 从 信和 号 处 理 程序 返回 ， 
如 果 是 这 样 信号 处 理 程序 会 将 控制 返回 给 被 中 断 的 处 理 循环 ， 反 之 ， 处 理 程序 执行 一 个 非 本 地 跳 
转 ， 回 到 主 函 数 的 开始 处 。 当 我 们 在 系统 上 运行 这 个 程序 时 ， 得 到 以 下 输出 : 


Unix> ./restart 

Starting 

processing... 

processing... 

restarting User hits ctri-e 
processing... 
restarting User hits ctrl-ce 
processing... 
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code/ecf/setimp.c 
1 #include "csapp.h" 
2 
3 jmp_buf buf ; 
4 
5 int errorl = 0; 
6 int error2 = 1; 
8 void foo(void), bar(void); 
9 
10 int main() 
11 { 
12 int rc; 
13 
14 rc = setjmp(buf); 
15 if (rc == 0) 
16 foo(); 
17 else if (rc == 1) 
18 printf ("Detected an errori condition in foo\n'); 
19 else if (rc == 2) 
20 printf("Detected an error2 condition in foo\n'"); 
21 else | 
22 printf("Unknown error condition in foo\n'"); 
23 exit (0); 
24 } 
25 
26 /* Deeply nested function foo */ 
27 void foo(void) 
28 二 
29 if (error1) 
30 longjmp(buf ，1) ; 
31 bar() ; 
32 上 
33 
34 void bar(void) 
35 荆 
36 if (error2) 
37 longjmp (buf ，2) ; 
38 3 
code/ecf/setimp.c 


图 8-39” 非 本 地 跳 转 的 示例 。 这 个 示例 表明 了 使 用 非 本 地 跳 转 来 从 深层 骨 套 的 函数 调用 让 的 错误 情况 
恢复 ， 而 不 需要 解 开 整 个 栈 的 基本 框架 


C++ 和 Java 中 的 软件 异常 : : 

C++ 和 Java 提供 的 异常 机 制 是 较 两 层次 的 ， 是 CC 语言 的 setjmp 和 longjmp 函数 的 更 加 
结构 化 的 版 本 。 你 可 以 把 try 语 向 中 的 catch 子 揣 看 做 类 似 于 setjmp 函数 。 人 throw 
语句 就 类 似 于 longjmp 函数 。 
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code/ecf/restart.c 
1 #include "csapp.h" 


sigjmp_buf buf ; 


5 void handler(int sig) 

6 并 

7 siglongjmp (buf ,1); 
8 


10 int main() 

11 + 

12 Signal (SIGINT, handler); 

14 if (lsigsetjmp(buf, 1)) 

15 printf ("starting\n'); 
16 else 

1 printf ("restarting\n'); 


19 while(1) { 
20 Sleep(1); 
21 printf ("processing...\n'"); 
22 . 
23 exit(0); 
24 } 
code/ecf/restart.c 


图 8-40 一 个 当 用 户 键 人 人 ctrl-c 时 ， 使 用 非 本 地 跳 转 来 重启 动 它 自身 的 程序 


8.7 ”操作 进程 的 工具 


Linux 系统 提供 了 大 量 的 监控 和 操作 进程 的 有 用 工具 : 

STRACE : 打印 一 个 正在 运行 的 程序 和 它 的 子 进 程 调 用 的 每 个 系统 调用 的 轨迹 。 对 于 好 奇 的 
学 生 而 言 ， 这 是 一 个 令 人 着 迷 的 工具 。 用 -static 编译 你 的 程序 ， 能 得 到 一 个 更 干净 的 、 不 带 
有 大 量 与 共享 库 相 关 的 输出 的 轨迹 。 

PS : 列 出 当前 系统 中 的 进程 (包括 候 死 进程 )。 

TOP : 打印 出 关于 当前 进程 资源 使 用 的 信息 

PMAP : 显示 进程 的 存储 器 映射 。 

/proc : 一 个 虚拟 文件 系统 ， 以 ASCI 文本 格式 输出 大 量 内 核 数 据 结构 的 内 容 ， 用 户 程序 可 
以 读 取 这 些 内 容 。 比 如 ， 输 入 “cat /proc/1loadavg”， 观察 在 Linux 系统 上 当前 的 平均 负载 。 


8.8 小 结 


异常 控制 流 (ECF) 发 生 在 计算 机 系统 的 各 个 层次 ， 是 计算 机 系统 中 提供 并 发 的 基本 机 制 。 

在 硬件 层 ， 异 常 是 由 处 理 器 中 的 事件 触发 的 控制 流 中 的 突变 。 控 制 流传 递 给 一 个 软件 处 理 程 
序 ， 该 处 理 程序 进行 一 些 处 理 ， 然 后 返回 控制 给 被 中 断 的 控制 流 。 

有 四 种 不 同类 型 的 异常 : 中 断 、 故 障 、 终 止 和 陷阱 。 当 一 个 外 部 IO 设备 ， 例 如 定时 器 必 片 
或 者 一 个 磁盘 控制 器 ， 设 置 了 处 理 器 忆 片 上 的 中 断 引 脚 时 ，( 对 于 任意 指令 ) 中 断 会 异步 地 发 生 。 
控制 返回 到 故障 指令 后 面 的 那 条 指令 。 一 条 指令 的 执行 可 能 导致 故障 和 终止 同时 发 生 。 故 障 处 理 
程序 会 重新 启动 故障 指令 ， 而 终止 处 理 程序 从 不 将 控制 返回 给 被 中 断 的 流 。 最 后 ， 陷 阱 就 像 是 用 
来 实现 向 应 用 提供 到 操作 系统 代码 的 受 控 的 入 口 点 的 系统 调用 的 函数 调用 。 
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在 操作 系统 层 ， 内 核 用 ECF 提供 进程 的 基本 概念 。 进 程 提供 给 应 用 两 个 重要 的 抽象 : 1) 多 
辑 控 制 流 ， 它 提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 处 理 器 ，2) 私有 地 址 空间 ， 它 
提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 主 存 。 

在 操作 系统 和 应 用 程序 之 间 的 接口 处 ， 应 用 程序 可 以 创建 子 进程 ， 等 待 它 们 的 子 进程 停止 或 
者 终止 ， 运 行 新 的 程序 ， 以 及 捕获 来 自 其 他 进程 的 信号 。 信 号 处 理 的 语义 是 微妙 的 ， 并 且 随 系统 
不 同 而 不 同 。 然 而 ， 在 与 Posix 兼容 的 系统 上 存在 着 一 些 机 制 ， 允 许 程序 清楚 地 指定 期 望 的 信号 
处 理 语义 。 

最 后 ， 在 应 用 层 ，C 程序 可 以 使 用 非 本 地 跳 转 来 规避 正常 的 调用 / 返回 栈 规则 ， 并 且 直 接 从 
一 个 函数 分 支 到 另 一 个 函数 。 


参考 文献 说 明 


Itel 宏 体 系 结构 二 规范 包含 对 Intel 处 理 器 上 的 异常 和 中 断 的 详细 讨 
论 [27]。 操 作 系 统 教 科 书 [98，104，112] 包括 关于 异常 、 进 程 和 信号 的 其 他 信息 。W.Richard 
Stevens [110] 是 一 本 有 价值 的 和 可 读 性 很 高 的 经 典 著作 ， 是 关于 如 何在 应 用 程序 中 处 理 进程 和 信 
号 的 。Bovet 和 Cesati[11] 给 出 了 一 个 关于 Linux 内 核 的 惊人 的 清晰 的 描述 ， 包 括 进 程 和 信号 实 
现 的 细节 。Blum[9] 是 一 本 关于 x86 汇编 语言 的 极 好 的 参考 书 ， 详 细 描述 了 x86 系统 调用 接口 。 
家 庭 作业 / ee 
*8.9 考虑 四 个 具有 如 下 开始 和 结束 时 间 的 进程 : 


开始 时 间 


4 

6 

8 
对 于 每 对 进程 ， 指 明 它们 是 否 是 并 发 地 运行 的 : 










ph 
Ac | 
AD 小 -ee | 
ac 人 
pp | 人 
| 
*8.10 在 这 一 章 里 ， 我 们 介绍 了 一 些 具有 不 寻常 的 调用 和 返回 行为 的 函数 : setjmp、longjmp、execve 
和 fork。 找 到 下 列 行为 中 和 每 个 函数 相 匹 配 的 一 种 : 

A. 调用 一 次 ， 返回 两 次 。 


C. 调用 一 次 ， 返 回 一 次 或 者 多 次 。 
* 8.11 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 





code/ecf/forkprobl.c 
1 #include "csapp.h" 
5 8 
3 int main() 
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* 8.12 ”这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


莫 二 六 分 


{ 
int i; 
for (i = 0; i < 2; i++) 
Fork() ; 
printf ("hello\n'); 
exit (0); 
} 


#include "csapp.h" 


void doit() 


{ 
Fork(); 
Fork(); 
printf ("hello\n"); 
return; 

} 

int main() 

{ 
doit(); 
printf ("hello\n'); 
exit (0):; 

} 


*8.13 下 面 程序 的 一 种 可 能 的 输出 是 什么 ? 


Rn 一 


*8.14 人 下面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


Mn 人 一 


#include "csapp.h" 


int main() 


{ 
int x = 3; 
if (Fork() != 0) 
printf ("x=%d\n", ++x); 
printf ("x=%d\n", --x); 
exit (0); 
} 


#include "csapp.h" 


void doit() 
{ 
if (Fork() == 0) { 
Fork(); 


任 承 缮 上 运行 程序 


code/ecf/forkprobl.c 


code/ecfHforkprob4.c 


code/ecH/forkprob4.c 


code/ect/forkprob3.c 


code/ecf/forkprob3.c 


code/ecf/forkproby.c 
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Printf("helloNn") ; 


8 exit(0); 
9 } 
19 return,; 
11 3} 
12 
13 int main() 
全 这 
15 doit() ; 
16 printf ("hello\n"); 
17 exit (0); 
18 3 
code/ecHforkprobS.c 
*8.15 下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 
code/ecH/forkprob6.c 
| #include "csapp.h" 
2 
3 void doit() 
人 艺 
5 if (Fork() == 0) { 
6 Fork() ; 
7 printf ("hello\n'); 
8 return,; 
9 } 
10 return; 
11 了 
12 
13 int main() 
14 攻 
15 doijt() ; 
16 printf ("hello\n"): 
47 exit (0); 
i 3} 
code/ecft/forkprob6.c 
*8.16 下 面 这 个 程序 的 输出 是 什么 ? 
code/ecHforkprob7.c 
1 #include "csapp.h" 
2 int counter = 1; 
3 
4 int main() 
和 1 
6 .if (fork() == 0) { 
7 counter--; 
8 exit(O) ; 
站 ee 
10 else { 
11 Wait (NULL); 
> printf("counter = %hd\n", ++tcounter); 
13 } 
14 exit (0); 
is 


code/ecHforkprob7.c 
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*8.17 列举 练习 题 8.4 中 程序 所 有 可 能 的 输出 。 
**8.18 考虑 下 面 的 程序 : 


code/ecf/forkprob2.c 
1 #include "csapp.h" 
2 
3 void end(void) 
4 
5 printf ("2"); 
6 
7 
8 int main() 
9 ， -二 
10 if (Fork() == 0) 
11 atexit (end); 
12 if (Fork() == 0) 
13 printf ("0"); 
14 else 
15 printf ("1"); 
16 exit (0); 
17 
code/ecf/forkprob2.c 


判断 下 面 哪个 输出 是 可 能 的 。 注 意 : atexit 函数 以 一 个 指向 函数 的 指针 为 输入 ， 并 将 它 添 加 到 范 
数列 表 中 《初始 为 空 )， 当 exit 函数 被 调用 时 ， 会 调用 该 列表 中 的 函数 。 

A. 112402 

B. 211020 

C. 102120 

D. 122001 

E. 100212 

**8.19 下 面 的 函数 打印 多 少 行 输出 ? 给 出 一 个 答案 为 n 的 函数 。 假 设 n 之 1。 


code/ecfH/forkprobs.c 
void foo(int n) 


1 

2 苹 

3 int i; 
4 

5 


for (i = 0; i < n; i++) 
6 Fork (); 
7. printf ("hello\n'"); 
8 exit (0); 


code/ecf/forkprobs.c 


**8.20 ”使 用 execve 编写 一 个 叫做 myls 的 程序 ， 该 程序 的 行为 和 /bin/1s 程序 的 一 样 。 你 的 程序 应 该 接 
受 相同 的 命令 行 参数 ， 解 释 同样 的 环境 变量 ， 并 产生 相同 的 输出 。 
ls 程序 从 COLUMNS 环境 变量 中 获得 屏幕 的 宽度 。 如 果 没 有 设置 COLUMNS， 那 么 1s 会 假设 屏幕 
宽 80 列 。 因 此 ， 你 可 以 通过 把 COLUMNS 环境 设置 得 小 于 80， 来 检查 你 对 环境 变量 的 处 理 : 


Unix> setenv COLUMNS 40 
unix> ./myils 
.. .Output is 40 columns wide 
unix> unsetenv COLUMNS 
Unix> ./myls 
...0utput is now 80 columns wide 


** 8.21 


8.22 


** 8.23 


** 8.24 


8.25 


站 8.26 
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下 面 程序 的 可 能 的 输出 序列 是 什么 ? 


code/ecf/waitprob3.c 
1 int main() 
2 六 
3 if (fork() == 0) { 
4 printf ("a"); 
5 exit (0); 
6 } 
7 else + | 
8 printf ("b"); 
9 waitpid(-1, NULL, 0); 
10 
11 printf("c'"); 
12 exit (0); 
13 } 
code/ecf/waitprob3.c 


编写 Unix system 函数 的 你 自己 的 版 本 
int mysystem(char *command); 


mysystem 函数 通过 调用 “/bin/sh -c command” 来 执行 command， 然 后 在 command 完成 后 返 
回 。 如 果 command (通过 调用 exit 函数 或 者 执行 一 条 return 语句 ) 正常 退出 ， 那 么 mysystem 
返回 command 退出 状态 。 例 如 ， 如 果 command 通过 调用 exit (8) 终止 ， 那 么 mysystem 返 回 值 
8。 否 则 ， 如 果 command 是 异常 终止 的 ， 那 么 mysystem 就 返回 外 壳 返 回 的 状态 。 

你 的 一 个 同事 想 要 使 用 信和 号 来 让 一 个 父 进 程 对 发 生 在 一 个 子 进程 中 的 事件 计数 。 其 思想 是 每 次 发 生 

一 个 事件 时 ， 通 过 向 父 进 程 发 送 一 个 信号 来 通知 它 ， 并 且 让 父 进 程 的 信号 处 理 程序 对 一 个 全 局 变量 

counter 加 一 ， 在 子 进程 终止 之 后 ， 父 进程 就 可 以 检查 这 个 变量 。 然 而 ， 当 他 在 系统 上 运行 图 8-41 

中 的 测试 程序 时 ， 发 现 当 父 进程 调用 printf 时 ，counter 的 值 总 是 2， 即 使 子 进 程 向 父 进程 发 送 

了 5 个 信号 。 他 很 困惑 ， 向 你 寻求 攻 助 。 你 能 解释 这 个 程序 有 什么 错误 吗 ? 

修改 图 8-17 中 的 程序 ， 以 满足 下 面 两 个 条 件 : 

1. 每 个 子 进 程 在 试图 写 一 个 只 读 文本 段 中 的 位 置 时 会 异常 终止 。 

2. 父 进 程 打 印 和 下 面 所 示 相 同 〈 除 了 PID) 的 输出 : 

child 12255 terminated by signal 11: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 

提示 : 请 参考 psignal (3) 的 man 页 。 z 

编写 fgets 函数 的 一 个 版 本 ， 叫 做 tfgets， 它 5 秒 钟 后 会 超时 。tfgets 函数 接收 和 fgets 相同 
的 输入 。 如 果 用 户 在 5 秒 内 不 键入 一 个 输入 行 ，tfgets 返回 NULL。 否 则 ， 它 返回 一 个 指向 输入 行 
的 指针 。 : 

以 图 8-22 中 的 示例 作为 开始 点 ， 编 写 一 个 支持 作业 控制 的 外 这 程序 。 外 这 必须 具有 以 下 特性 : 

。 用 户 输入 的 命令 行 由 一 个 name、 零 个 或 者 多 个 参数 组 成 ， 它 们 都 是 由 一 个 或 者 多 个 空格 分 隔 开 
的 。 如 果 name 是 一 个 内 置 命 令 ， 那 么 外 这 就 立即 处 理 它 ， 并 等 待 下 一 个 命令 行 。 否 则 ， 外 这 就 假 
设 name 是 一 个 可 执行 的 文件 ， 在 一 个 初始 的 子 进程 (作业 〉 的 上 下 文中 加 载 并 运行 它 。 作 业 的 进 
程 组 ID 与 子 进程 的 PID 相同 。 

“每 个 作业 是 由 一 个 进程 ID (PID) 或 者 一 个 作业 ID (JID) 来 标识 的 ， 它 是 由 一 个 外 这 分 配 的 任意 
的 小 正 整 数 。JID 在 命令 行 上 用 前 级 “%” 来 表示 。 比 如 ,，“%5” 表 示 JID 5, 而 “5” 表 示 PID 5。 

* 如 果 命 令 行 以 及 来 结束 ， 那 么 外 这 就 在 后 人 台 运 行 这 个 作业 。 否 则 ， 外 这 就 在 前 台 运 行 这 个 作业 。 

。 输 入 ctr1-c (ctr1-z)， 使 得 外 壳 发 送 一 个 SIGINT (SIGTSTP) 信和 号 给 前 人 台 进 程 组 中 的 每 个 进程 。 
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code/ecf/counterprob.c 
| #include "csapp.h" 
2 
3 Int counter = 0; 
4 
5 void handler(int sig) 
全 二 
7 countert++; 
8 sleep(1); /* Do some work in the handler */ 
9 return; 
i0 3} 
二 
12 int main() 
; 1 
14 int i; 
15 
16 Signal (SIGUSR2, handler); 
i7 
18 if (Fork() == 0) { /* Child */ 
19 for (i = 0; i < 5; i++) { 
20 Kill(getppid(), SIGUSR2); 
21 printf("sent SIGUSR2 to parent\n'"); 
22 } 
23 exit (0); 
24 } 
25 
26 Wait (NULL); 
27 printf ("counter=%d\n", counter); 
28 exit (0); 
29 } 
code/ecf/counterprob.c 


图 8-41 ”家庭 作 业 8.23 中 引用 的 计数 器 程序 


。 内 置 命 令 jobs 列 出 所 有 的 后 台 作 业 。 | 

。 内置 命 令 bg <job> 通过 发 送 一 个 SIGCONT 信号 重启 <job>， 然 后 在 后 台 运 行 它 。<job> 参数 
可 以 是 一 个 PID， 也 可 以 是 一 个 JID。 

* 内置 命令 fg <job> 通过 发 送 一 个 SIGCONT 信和 号 重启 <job>， 然 后 在 前 台 运 行 它 。 

。 外 壳 回 收 它 所 有 的 僵 死 子 进程 。 如 果 任 何 作业 因为 它 收 到 一 个 未 捕获 的 信号 而 终止 ， 那 么 外 壳 就 输 
出 一 条 信息 到 终端 ， 包 含 该 作业 的 PID 和 对 违规 信和 号 的 描述 。 

图 8-42 展示 了 一 个 示例 的 外 这 会 话 。 


练习 题 答案 


练习 题 8.1 进程 A 和 B 是 互相 并 发 的 ， 就 像 B 和 C 一 样 ， 因 为 它们 各 自 的 执行 是 重合 的 ， 也 就 是 一 个 进程 
在 另 一 个 进程 结束 前 开始 。 进 程 A 和 C 不 是 并 发 的 ， 因 为 它们 的 执行 没有 重 亚 ; A 在 C 开始 之 前 就 结束 了 。 
练习 题 8.2 在 图 8-15 中 的 示例 程序 中 ， 父 子 进程 执行 无 关 的 指令 集合 。 然 而 ， 在 这 个 程序 中 ， 父 子 进程 
执行 的 指令 集合 是 相关 的 ， 这 是 有 可 能 的 ， 因 为 父子 进程 有 相同 的 代码 段 。 这 会 是 一 个 概念 上 的 障碍 ， 所 
以 请 确认 你 理解 了 本 题 的 答案 。 

A. 这 里 的 关键 点 是 子 进 程 执行 了 两 个 printf 语句 。 在 fork 返回 之 后 ， 它 执行 了 第 8 行 的 PrintEf。 
然后 它 从 if 语句 中 出 来 ， 执 行 了 第 9 行 的 printf 语句 。 下 面 是 子 进程 产生 的 输出 : 


printf1i: x=2 
printf2: x=1 





B. 父 进程 只 执行 了 第 9 行 的 Printf : 


printf2: x=0 


练习 题 8.4 A. 每 次 我 们 运行 这 个 程序 ， 就 会 产生 6 个 输出 行 。 


unix> ./shell 

> bogus 

bogus: Command not found. 

> foo 10 

Job 5035 terminated by signal: Interrupt 
> foo 100 & 

[1] 5036 foo 100 & 

> foo 200 & 

[2] 5037 foo 200 & 

> jobs 

[1] 5036 Running foo 100 & 
[2] 5037 Running foo 200 & 
> fg %1 

Job [1j 5036 stopped by signal: Stopped 
> jobs 

[1] 5036 Stopped foo 100 & 
[2] 5037 Running foo 200 & 
> bg 5035 

5035: No such process 

> bg 5036 

[1] 5036 foo 100 & 

> /bin/kill 5036 


Job 5036 terminated by signal: Terminated 


> fg %2 
> quit 
unix> 





宽 8 茧 邦和 赏 塘 制 沙 。 531 


Run your shell prograi 
Execve Can find executabdie 


User types ctril-e 


User types ct 


Wait or fg job to finish. 


Back to the Unix shell 


图 8-42” ”家庭 作业 8.26 的 外 过 会 话 示例 


练习 题 8.3” 父 进程 打印 bp， 然后 是 c。 子 进程 打印 a， 然 后 是 c。 意 识 到 你 不 能 对 父 进 程 和 子 进 程 是 如 何 交 
错 执 行 的 做 任何 假设 是 非常 重要 的 。 因 此 ， 任 何 满足 6 一 c 和 a 一 cc 的 拓扑 排序 都 是 可 能 的 输出 序列 。 有 
四 个 这 样 的 序列 : acbc、bcac、abcc 和 bacc。 


B. 输出 行 的 顺序 根据 系统 不 同 而 不 同 ， 取 决 于 内 核 如 何 交替 执 行 父子 进程 的 指令 。 一 般 而 言 ， 满 足下 
图 的 任意 拓扑 排序 都 是 合法 的 顺序 : 


三 ‘Oi 一 一 > lot 一 一 > Bye' 父 进 程 


一 一 > 619 一 一 > ‘‘Bye'' 





比如 ， 当 我 们 在 系统 上 运行 这 个 程序 时 ， 会 得 到 下 面 的 输出 : 


unix> ./waitprob1 


Hello 
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在 这 种 情况 下 ， 父 进程 首先 运行 ， 在 第 6 行 打印 “Hel1o”， 在 第 8 行 打印 “0”。 对 wait 的 调用 会 阻 
塞 ， 因 为 子 进 程 还 没有 终止 ， 所 以 内 核 执 行 一 个 上 下 文 切换 ， 并 将 控制 传递 给 子 进 程 ， 子 进程 在 第 8 行 打 
印 “1”， 在 第 15 行 打印 “Bye”， 然后 在 第 16 行 终止 退出 状态 为 2。 在 子 进程 终止 后 ， 父 进程 继续 ， 在 
第 12 行 打印 子 进程 的 退出 状态 ， 在 第 15 行 打印 “Bye”。 
练习 题 8.5 
code/ecf/snooze.c 


1 unsigned int snooze(unsigned int secs) 荆 


2 unsigned int rc = sleep(secs); 
3 printf ("Slept for hu of 如 secs.\n", secs - rc, secs); 
4 return rc; 
5 } : 
code/ecf/snooze.c 
练习 题 8.6 
code/ecf/myecho.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char *argv[], char *envp[]) 
4 1 
5 int i; 
6 
7 printf ("Command line arguments:\n'); 
:8 for (i=0; argv[i] != NULL; i++) 
9 printf(" argv[%2d]: %s\n", i, argv[i]); 
10 
11 printf ("\n'); 
12 printf ("Environment variables:\n'"); 
13 for (i=0; envp[i] != NULL; i++) 
14 printf(" envp[%2d]: %s\n", i, envp[i]); 
15 
16 exit (0); 
17 3} 


odecf/myechor 
练习 题 8.7 只 要 休眠 进程 收 到 一 个 未 被 忽略 的 信号 ，sleep 函数 就 会 提前 返回 。 但 是 ， 因 为 收 到 一 个 
SIGINT 信和 号 的 默认 行为 就 是 终止 进程 〈 见 图 8-25)， 我 们 必须 设置 一 个 SIGINT 处 理 程序 来 允许 sleep 函 
数 返回 。 处 理 程序 简单 地 捕获 SIGNAL， 并 将 控制 返回 给 sleep 函数 ， 该 函数 会 立即 返回 。 


code/ecf/snooze.c 


1 #include "csapp.h" 

2 

3 /x* SIGINT handler */ 

4 void handler(int sig) 

s 1 z 

6 return; /* Catch the signal and return */ 
J 

8 

9 unsigned int snooze(unsigned int secs) { 

10 unsigned int rc = Sleep(secs) ; 

11 printf("Slept for %u of hu secs.\n", secs - rc, secs); 
12 return rc; 

i133 .+} 

14 


15 int main(int argc, char **argv) 
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16 


17 if (argc != 2) { 

18 fprintf (stderr, "usage: Ms <secs>\n", argv[0]); 

19 , exit (0); i 

20 } 

21 

22 if (signal(SIGINT, handler) == SIG_ERR) /* Install SIGINT handler */ 
23 unix_error("signal error\n'"); 

24 (void)snooze(atoi(argv[1])); 

25 exit(0); 

26 


code/ecf/snooze.c 


练习 题 8.8 ”这 个 程序 打印 字符 串 “213”， 这 是 卡 内 基 梅 隆 大 学 CS:APP 课程 的 缩写 名 。 父 进程 开始 时 打印 
“2”， 然 后 创建 子 进程 ， 子 进程 会 陷入 一 个 无 限 循环 。 然 后 父 进 程 向 子 进 程 发 送 一 个 信和 号， 并 等 待 它 终止 。 
子 进 程 捕获 这 个 信号 〈 中 断 这 个 无 限 循 环 )， 对 计数 器 值 (从 初始 值 2) 减 一 ， 打 印 “1” 然后 终止 。 在 父 
进程 回收 子 进程 之 后 ， 它 对 计数 器 值 〔 从 初始 值 2) 加 一 ， 打 印 “3” 并 且 终 止 。 
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一 个 系统 中 的 进程 是 与 其 他 进程 共享 CPU 和 主 存 资源 的 。 然 而 ， 共 享 主 存 会 形成 一 些 特殊 
的 挑战 。 随 着 对 CPU 需求 的 增长 ， 进 程 以 某 种 合理 的 平滑 方式 慢 了 下 来 。 但 是 如 果 太 多 的 进程 
需要 太 多 的 存储 器 ， 那 么 它们 中 的 一 些 就 根本 无 法 运行 。 当 一 个 程序 没有 空间 可 用 时 ， 那 就 是 它 
运气 不 好 了 。 存 储 器 还 很 容易 被 破坏 。 如 果 某 个 进程 不 小 心 写 了 另 一 个 进程 使 用 的 存储 器 ， 它 就 
可 能 以 某 种 完全 和 程序 逻辑 无 关 的 令 人 迷惑 的 方式 失败 。 

为 了 更 加 有 效 地 管理 存储 器 并 且 少 出 错 ， 现 代 系统 提供 了 一 种 对 主 存 的 抽象 概念 ， 叫 做 虚拟 
存储 器 (VM)。 虚 拟 存储 器 是 硬件 异常 、 硬 件 地 址 翻译 、 主 存 、 磁 盘 文 件 和 内 核 软 件 的 完美 交 
互 ， 它 为 每 个 进程 提供 了 一 个 大 的 、 一 致 的 和 私有 的 地 址 空间 。 通 过 一 个 很 清晰 的 机 制 ， 虚 拟 存 
储 器 提供 了 三 个 重要 的 能 力 : 1) 它 将 主 存 看 成 是 一 个 存储 在 磁盘 上 的 地 址 空间 的 高 速 缓存 ， 在 
主 存 中 只 保存 活动 区 域 ， 并 根据 需要 在 磁盘 和 主 存 之 间 来 回 传送 数据 ， 通 过 这 种 方式 ， 它 高 效 地 
使 用 了 主 存 。2) 它 为 每 个 进程 提供 了 一 致 的 地 址 空间 ， 从 而 简化 了 存储 器 管理 。3) 它 保护 了 每 
个 进程 的 地 址 空间 不 被 其 他 进程 破坏 。 

虚拟 存储 器 是 计算 机 系统 最 重要 的 概念 之 一 。 它 成 功 的 一 个 主要 原因 就 是 因为 它 是 沉默 地 、 
自动 地 工作 的 ， 不 需要 应 用 程序 员 的 任何 干涉 。 既 然 虚 拟 存储 器 在 幕后 工作 得 如 此 之 好 ， 为 什么 
程序 员 还 需要 理解 它 呢 ? 有 以 下 几 个 原因 : 

“ 虚拟 存储 器 是 中 心 的 。 虚 拟 存储 器 遍及 计算 机 系统 的 所 有 层面 ， 在 硬件 异常 、 汇 编 器 、 链 

接 器 、 加 载 器 、 共 享 对 象 、 文 件 和 进程 的 设计 中 扮演 着 重要 角色 。 理 解 虚拟 存储 器 将 帮助 

你 更 好 地 理解 系统 通常 是 如 何 工作 的 。 

“虚拟 存储 器 是 强大 的 。 虚拟 存 储 器 给 予 应 用 程序 强大 的 能 力 ， 可 以 创建 和 销毁 存储 器 片 

(chunk)、 将 存储 器 片 映射 到 磁盘 文件 的 某 个 部 分 ， 以 及 与 其 他 进程 共享 存储 器 。 比 如 ， 

你 知道 你 可 以 通过 读 写 存储 器 位 置 读 或 者 修改 一 个 磁盘 文件 的 内 容 吗 ? 或 者 是 你 可 以 加 载 

一 个 文件 的 内 容 到 存储 器 中 ， 而 不 需要 进行 任何 显 式 的 拷贝 吗 ? 理解 虚拟 存储 器 将 帮助 你 

利用 它 的 强大 功能 在 你 的 应 用 程序 中 添加 动力 。 

“ 虚拟 存储 器 是 危险 的 。 每 次 应 用 程序 引用 一 个 变量 、 间 接 引 用 一 个 指针 ， 或 者 调用 一 个 诸 

如 malloc 这 样 的 动态 分 配 程序 时 ， 它 就 会 和 虚拟 存储 器 发 生 交 互 。 如 果 虚 拟 存储 器 使 用 

不 当 ， 应 用 将 遇 到 复杂 危险 的 与 存储 器 有 关 的 错误 。 例 如 ， 一 个 带 有 错误 指针 的 程序 可 以 

立即 崩 演 于 “有 段 错误 ”或 者 “保护 错误 ”， 它 可 能 在 崩 演 之 前 还 默默 地 运行 几 个 小 时 ， 或 

者 是 最 令 人 惊慌 地 ， 运 行 完成 却 产生 不 正确 的 结果 。 理 解 虚拟 存储 器 以 及 庶 如 malloc 之 

类 的 管理 虚拟 存储 器 的 分 配 程序 ， 可 以 帮助 你 避免 这 些 错误 。 

这 一 章 从 两 个 角度 来 看 虚拟 存储 器 。 本 章 的 前 一 部 分 描述 虚拟 存储 髓 是 如 何 工作 的 。 后 一 部 
分 描述 的 是 应 用 程序 如 何 使 用 和 管理 虚拟 存储 器 。 不 可 避免 的 事实 是 虚拟 存储 器 很 复杂 ， 本 章 的 
很 多 地 方 都 反映 了 这 一 点 。 好 消息 就 是 如 果 你 掌握 这 些 细节 ， 你 就 能 够 手工 模拟 一 个 小 系统 的 虚 
拟 存 储 器 机 制 ， 而 且 虚 拟 存储 器 的 概念 将 永远 不 再 神秘 。 

后 一 部 分 是 建立 在 这 种 理解 之 上 的 ， 向 你 展示 了 如 何在 程序 中 使 用 和 管理 虚拟 存储 器 。 你 将 
学 会 如 何 通过 显 式 的 存储 器 映射 和 对 像 malloc 程序 这 样 的 动态 存储 分 配器 的 调用 来 管理 虚拟 
存储 器 。 你 还 将 了 解 到 C 程序 中 的 大 多 数 常 见 的 与 存储 器 有 关 的 错误 ， 并 学 会 如 何 避 免 它 们 的 
出 现 。 
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9.1 物理 和 虚拟 寻 址 


计算 机 系统 的 主 存 被 组 织 成 一 个 由 M 个 连续 的 字 节 大 小 的 单元 组 成 的 数组 。 每 字 节 都 有 
一 个 唯一 的 物理 地 址 (Physical Address，PA)。 第 一 个 字 节 的 地 址 为 0， 接 下 来 的 字 节 地 址 为 
1， 再 下 一 个 为 2， 依 此 类 推 。 给 定 这 种 简单 的 结构 ，CPU 访问 存储 器 的 最 自然 的 方式 就 是 使 用 
物理 地 址 。 我 们 把 这 种 方式 称 为 物理 寻 址 (physical 





addressing)。 图 9-1 展示 了 一 个 物理 寻 址 的 示例 ， 该 天 二 一 
示例 的 上 下 文 是 一 条 加 载 指令 ， 它 读 取 从 物理 地 址 4 、 物理 地 址 。 上 一 一 
处 开始 的 字 。 3:| 
当 CPU 执行 这 条 加 载 指令 时 ， 它 会 生成 一 个 有 效 | 
物理 地 址 ， 通 过 存储 器 总 线 ， 把 它 传递 给 主 存 。 主 存 i 
取出 从 物理 地 址 4 处 开始 的 4 字 节 的 字 ， 并 将 它 返 回 人 
给 CPU，CPU 会 将 它 存 放 在 一 个 寄存 器 里 。 
早期 的 PC 使 用 物理 寻 址 ， 而 且 诸 如 数字 信号 处 FF 





理 器 、 舱 人 式微 控制 器 以 及 Cray 超级 计算 机 这 样 的 系 二 
统 仍然 继续 使 用 这 种 寻 址 方式 。 然 而 ， 现 代 处 理 器 使 人 

用 的 是 一 种 称 为 虚拟 寻 址 〈virtual addressing) 的 寻 址 图 9-1 一 个 使 用 物理 寻 址 的 系统 
形式 ， 参 见 图 9-2。 


Pe 






虚拟 地 址 ”地址 翻译 ”| ”物理 地 址 


(VA) i | (PA) 
4100 






数据 字 


图 9-2 一 个 使 用 虚拟 寻 址 的 系统 


使 用 虚拟 寻 址 时 ，CPU 通过 生成 一 个 虚拟 地 址 (Virtual Address，VA) 来 访问 主 存 ， 这 个 虚 
拟 地 址 在 被 送 到 存储 器 之 前 先 转换 成 适当 的 物理 地 址 。 将 一 个 虚拟 地 址 转换 为 物理 地 址 的 任务 叫 
做 地 址 翻译 (address translation )。 就 像 异 常 处 理 一 样 ， 地 址 翻译 需要 CPU 硬件 和 操作 系统 之 间 
的 紧密 合作 。CPU 芯片 上 叫做 存储 器 管理 单元 (Memory Management Unit, MMU) 的 专用 硬件 ， 
利用 存放 在 主 存 中 的 查询 表 来 动态 翻译 虚拟 地 址 ， 该 表 的 内 容 是 由 操作 系统 管理 的 。 


9.2 地址 空间 


地 址 空间 (address space) 是 一 个 非 负 整数 地 址 的 有 序 集合 : 
{0，1，2，…} 
如 果 地 址 空间 中 的 整数 是 连续 的 ， 那 么 我 们 说 它 是 一 个 线性 地 址 空间 (linear address space)。 为 了 
简化 讨论 ， 我 们 总 是 假设 使 用 的 是 线性 地 址 空间 。 在 一 个 带 虚 拟 存储 器 的 系统 中 ，CPU 从 一 个 有 
N=2 个 地 址 的 地 址 空间 中 生成 虚拟 地 址 ， 这 个 地 址 空间 称 为 虚拟 地 址 空间 (virtual address space ) : 


536 ” 慢 二 兽 分 在 基 纪 上 和 运 店 程序 


{0，1，2，…，N 一 1} 
一 个 地 址 空间 的 大 小 是 由 表示 最 大 地 址 所 需要 的 位 数 来 描述 的 。 例如 ， 与 个 包含 WE= 2" 个 地 址 的 
虚拟 地 址 空间 就 叫做 一 个 n 位 地 址 空间 。 现 代 系 统 典 型 地 支持 32 位 或 者 64 位 虚拟 地 址 空间 。 
一 个 系统 还 有 一 个 物理 地 址 空间 (physical address space)， 它 与 系统 中 物理 存储 器 的 M 个 字 
节 相 对 应 : 
{0, 1, 2, …, M— 1} 
M 0 的 第， 但 是 为 了 简化 讨论 ， 我 们 假设 人 = -a 
空间 的 概念 是 很 重要 的 ， 因 为 它 清楚 地 区 分 了 数据 对 象 ( 字 节 ) 和 它们 的 属性 (地 址 )。 
ER 了 这 种 区 别 ， 那 么 我 们 就 可 以 将 其 推广 ， 人 允许 每 个 数据 对 象 有 多 个 独立 的 地 址 ， 其 中 
每 个 地 址 都 选 自 一 个 不 同 的 地 址 空间 。 这 就 是 虚拟 存储 器 的 基本 思想 。 主 存 中 的 每 个 字 节 都 有 本 
个 选 自 虚 拟 地 址 空间 的 虚拟 地 址 和 一 个 选 自 物理 地 址 空间 的 物理 地 址 。 
和 练习 题 9.1 完成 下 面 的 表格 ， 填 写 缺 失 的 条 目 ， 并 且 用 适当 的 整数 取代 每 个 问号 。 利用 下 列 音 
位 :KK=2"( 千 )，M =2”( 粮 , 百 万 )，G=2”( 千 光 ， 十 亿 )， T= 2 (万 亿 )， P=2”( 千 千 兆 )， 或 
E= 24 ( 千 兆 兆 )。 : 


虚拟 地 址 位 数 (n) 虚拟 地 址 数 (N) 最 大 可 能 的 虚拟 地 址 








9.3 ”虚拟 存储 器 作为 缓存 的 工具 


概念 上 而 言 ， 虚 拟 存储 器 (VM) 被 组 织 为 一 个 由 存放 在 磁盘 上 的 六 个 连续 的 字 节 大 小 的 单 
元 组 成 的 数组 。 每 字 节 都 有 一 个 唯一 的 虚拟 地 址 ， 这 个 唯一 的 虚拟 地 址 是 作为 到 数组 的 索引 的 。 
磁盘 上 数组 的 内 容 被 缓存 在 主 存 中 。 和 存储 器 层次 结构 中 其 他 缓存 一 样 ， 磁 盘 〈 较 低层 ) 上 的 数 
据 被 分 割 成 块 ， 这 些 块 作为 磁盘 和 主 存 〈 较 高 层 ) 之 间 的 传输 单元 。VM 系统 通过 将 虚拟 存储 器 
分 割 为 称 为 虚拟 页 (Virtual Page，VP) 的 大 小 固定 的 块 来 处 理 这 个 问题 。 每 个 虚拟 页 的 大 小 为 

= 2 字 节 。 类 似 地 ， 物 理 存储 器 被 分 割 为 物理 页 (Physical Page，PP)， 大 小 也 为 P 字 节 ( 物 
理 页 也 称 为 页 帧 (page frame ) )。 z 

在 任意 时 刻 ， 虚 拟 页 面 的 集合 都 分 为 三 个 不 相交 的 子 集 : 

“ 未 分 配 的 : VM 系统 还 未 分 配 (或 者 创建 ) 的 页 。 未 分 本 的 志 没 有 任何 数据 和 它们 相关 联 ， 
因此 也 就 不 占用 任何 磁盘 空间 。 -| 
缓存 的 :当前 级 存在 物理 存 傅 。。 再 丰 依 器 a 和 到 丰台 

“未 缓存 的 : 没有 缓存 在 物理 存 

储 器 中 的 已 分 配 页 。 

图 9-3 中 的 示例 展示 了 一 个 有 8 ”| 才 多 的 

个 虚拟 页 的 小 虚拟 存储 器 。 虚 拟 页 0 让 人 1 





不 存在 。 虚 拟 页 1、4 和 6 被 缓存 在 ， 存储 在 磁盘 F 缓存 在 DRAMN 中 
物理 存储 器 中 。 页 2、5 和 7 已 经 被 。” ”图 9.3 -个 VM 系统 是 如 何 使 用 主 存 作为 缓存 的 
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分 配 了 ， 但 是 当前 并 未 缓存 在 主 存 中 。 
9.3.1 DRAM 缓存 的 组 织 结构 

为 了 有 助 于 清晰 地 理解 存储 层次 结构 中 不 同 的 缓存 概念 ， 我 们 将 使 用 术语 SRAM 缓存 来 表 
示 位 于 CPU 和 主 存 之 间 的 Ll1、L2 和 1L3 高 速 缓存 ， 并 且 用 术语 DRAM 组 看 来 表示 虚拟 存储 器 
系统 的 缓存 ， 它 在 主 存 中 缓存 虚拟 页 。 

在 存储 层次 结构 中 ，DRAM 缓存 的 位 置 对 它 的 组 织 结构 有 很 大 的 影响 。 回 想 一 下 ，SRAM 
比 DRAM 要 快 大 约 10 倍 ， 而 DRAM 要 比 磁 盘 快 大 约 100 000 多 倍 。 因 此 ，DRAM 缓存 中 的 
不 命中 比 起 SRAM 缓存 中 的 不 命中 要 昂贵 得 多 ， 因 为 DRAM 缓存 不 命中 要 由 磁盘 来 服务 ， 而 
SRAM 缓存 不 命中 通常 是 由 基于 DRAM 的 主 存 来 服务 的 。 而 且 ， 从 扇 区 中 连续 的 字 节 的 时 间 开 
销 比 起 读 这 个 磁盘 的 一 个 扇 区 读 取 第 一 字 节 要 慢 大 约 100 000 倍 。 归 根 到 底 ，DRAM 缓存 的 组 织 
结构 完全 是 由 巨大 的 不 命中 开销 驱动 的 。 

因为 大 的 不 命中 处 罚 和 访问 第 一 字 节 的 开销 ， 虚 拟 页 往往 很 大 ， 典 型 地 是 4KB ~ 2MB。 由 
于 大 的 不 命中 处 罚 ，DRAM 缓存 是 全 相连 的 ， 也 就 是 说 ， 任 何 虚拟 页 都 可 以 放置 在 任何 的 物理 
页 中 。 不 命中 时 的 蔡 换 策略 也 很 重要 ， 因 为 蔡 换 错 了 虚拟 页 的 处 罚 也 非常 之 高 。 因 此 ， 与 硬件 对 
SRAM 缓存 相 比 ， 操 作 系 统 对 DRAM 缓存 使 用 了 更 复杂 精密 的 替换 算法 〈 这 些 替 换算 法 超出 了 
我 们 的 讨论 范围 )。 最 后 ， 因 为 对 磁盘 的 访问 时 间 很 长 , DRAM 缓存 总 是 使 用 写 回 ， 而 不 是 直 写 。 
9.3.2 页 表 .| | 

同 任何 缓存 一 样 ， 虚 拟 存储 器 系统 必须 有 某 种 方法 来 判定 一 个 虚拟 页 是 否 存 放 在 DRAM 中 
的 某 个 地 方 。 如 果 是 ， 系 统 还 必须 确定 这 个 虚拟 页 存放 在 哪个 物理 页 中 。 如 果 不 命中 ， 系 统 必 须 
判断 这 个 虚拟 页 存放 在 磁盘 的 哪个 位 置 ， 在 物理 存储 器 中 选择 一 个 牺牲 页 ， 并 将 虚拟 页 从 磁盘 拷 
贝 到 DRAM 中 ， 替 换 这 个 牺牲 页 。 

这 些 功能 是 由 许多 软 人 硬件 联合 提供 的 ， 包 括 操作 系统 软件 、MMU (存储 器 管理 单元 ) 中 的 
地 址 翻译 硬件 和 一 个 存放 在 物理 存储 器 中 叫做 页 表 (page table) 的 数据 结构 ， 页 表 将 虚拟 页 映 
射 到 物理 页 。 每 次 地 址 翻译 硬件 将 一 个 虚拟 地 址 转换 为 物理 地 址 时 都 会 读 取 页 表 。 操 作 系 统 负责 
维护 页 表 的 内 容 ， 以 及 在 磁盘 与 DRAM 之 间 来 回 传送 页 。 

图 9-4 展示 了 一 个 页 表 的 基本 组 织 结构 。 页 表 就 是 一 个 页 表 条 目 (Page Table Entry，PTE) 
的 数组 。 虚 拟 地 址 空间 中 的 每 个 页 在 页 表 中 一 个 固定 偏 移 量 处 都 有 一 个 PTE。 为 了 我 们 的 目的 ， 
我 们 将 假设 每 个 PTE 是 由 一 个 有 效 位 (valid bit) 和 一 个 n 位 地 址 字段 组 成 的 。 有 效 位 表明 了 该 
虚拟 页 当前 是 否 被 缓存 在 DRAM 中 。 如 果 设 置 了 有 效 位 ， 那 么 地 址 字段 就 表示 DRAM 中 相应 的 
物理 页 的 起 始 位 置 ， 这 个 物理 页 中 缓存 物理 存储 器 
了 该 虚拟 页 。 如 果 没 有 设置 有 效 位 ， 那 物理 页 号 或 (DRAM) 

么 一 个 空地 址 表示 这 个 虚拟 页 还 未 被 分 。 5 有 效 位 磁盘 地 直 "i PPO 
配 。 和 否则 ， 这 个 地 址 就 指向 该 虚拟 页 在 V7 
磁盘 上 的 起 始 位 置 。 

图 9-4 中 的 示例 展示 了 一 个 有 8 个 
虚拟 页 和 4 个 物理 页 的 系统 的 页 表 。 四 
个 虚拟 页 (VP 1、VP2、VP4 和 VP7) 当 
前 被 缓存 在 DRAM 中 。 两 个 页 (VP 0 和 
VP 5) 还 未 被 分 配 ， 而 剩 下 的 页 (VP 3 
和 VP 6) 已 经 被 分 配 了 ， 但 是 当前 还 未 
被 缓存 。 图 9-4 中 有 一 个 要 点 要 注意 ， 
因为 DRAM 缓存 是 全 相连 的 ， 任 意 物 
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理 页 都 可 以 包含 任意 虚拟 页 。 
及 到 练习 题 9.2 ”确定 下 列 虚拟 地 址 大 小 〈n) 和 页 大 小 〈P) 的 组 合 所 需要 的 PTE 数量 : 








9.3.3 页 命中 

考虑 一 下 ， 当 CPU 读 包 含 在 VP 2 中 的 虚拟 存储 器 的 一 个 字 时 会 怎样 ，VP 2 是 被 缓存 在 
DRAM 中 〈 见 图 9-5)。 使 用 我 们 将 在 9.6 节 中 详细 描述 的 一 种 技术 ， 地 址 翻译 硬件 将 虚拟 地 址 
作为 一 个 索引 来 定位 PTE 2， 并 从 存储 器 中 读 取 它 。 因 为 设置 了 有 效 位 ， 那 么 地 址 翻译 硬件 就 知 
道 VP 2 是 缓存 在 存储 器 中 的 了 。 所 以 它 使 用 PTE 中 的 物理 存储 器 地 址 〈 该 地 址 指向 PP 1 中 组 
存 页 的 起 始 位 置 )， 构 造 出 这 个 字 的 物理 地 址 。 





人 物理 页 号 或 Be 


(DRAM) ~ “Ww | 


图 9-5 VM 页 命中 。 对 VP 2 中 一 个 字 的 引用 就 会 命中 


9.3.4 缺 页 | 

在 虚拟 存储 器 的 习惯 说 法 中 ，DRAM 缓存 不 命中 称 为 缺 页 〈page fault)。 图 9-6 展示 了 在 缺 
页 之 前 我 们 的 示例 页 表 的 状态 。CPU 引用 了 VP 3 中 的 一 个 字 ，VP 3 并 未 缓存 在 DRAM 中 。 地 
址 翻译 硬件 从 存储 器 中 读 取 PTE 3， 从 有 效 位 推断 出 VP 3 未 被 缓存 ， 并 且 触 发 一 个 缺 页 异常 。 

缺 页 异常 调用 内 核 中 的 缺 页 异常 处 理 程序 ， 该 程序 会 选择 一 个 牺牲 页 ， 在 此 例 中 就 是 存放 在 
PP 3 中 的 VP 4。 如 果 VP 4 已 经 被 修改 了 ， 那 么 内 核 就 会 将 它 拷贝 回 磁盘 。 无 论 哪 种 情况 ， 内 核 
都 会 修改 VP 4 的 页 表 条 目 ， 反 映 出 VP 4 不 再 缓存 在 主 存 中 这 一 事实 。 / 

接 下 来 ， 内 核 从 磁盘 拷贝 VP 3 到 存储 器 中 的 PP 3， 更 新 PTE 3， 随 后 返回 。 当 异常 处 理 程 
序 返 回 时 ， 它 会 重新 启动 导致 缺 页 的 指令 ， 该 指令 会 把 导致 缺 页 的 虚拟 地 址 重 发 送 到 地 址 翻译 便 
件 。 但 是 现在 ，VP 3 已 经 缓存 在 主 存 中 了 ， 那 么 页 命中 也 能 由 地 址 翻译 硬件 正常 处 理 了 。 图 9-7 
展示 了 在 缺 页 之 后 我 们 的 示例 页 表 的 状态 。 

虚拟 存储 器 是 在 20 世纪 60 年 代 早 期 发 明 的 ， 远 在 CPU- 存储 器 之 间 差 距 的 加 大 引发 产生 
SRAM 缓存 之 前 。 因 此 ， 虚 拟 存 储 器 系统 使 用 了 和 SRAM 缓存 不 同 的 术语 ， 即 使 它们 的 许多 概 
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念 是 相似 的 。 在 虚拟 存储 器 的 习惯 说 法 中 ， 块 被 称 为 页 。 在 磁盘 和 存储 器 之 间 传 送 页 的 活动 叫做 
交换 (swapping) 或 者 页 面 调度 (paging)。 页 从 磁盘 换 入 (或 者 页 面 调 入 ) DRAM 和 从 DRAM 
换 出 (或 者 页 面 调 出 ) 人 磁盘。 一 直 等 待 ， 直 到 最 后 时 刻 ， 也 就 是 当 有 不 命中 发 生 时 ， 才 换 入 页 
面 的 这 种 策略 称 为 按 需 页 面 调度 (demand paging)。 也 可 以 采用 其 他 方法 ， 例 如 尝试 着 预测 不 命 
中 ， 在 页 面 实际 被 引用 之 前 就 换 人 页 面 。 然 而， 所 有 现代 系统 都 使 用 的 是 按 需 页 面 调度 的 方式 。 


物理 存储 器 






El 物理 页 号 或 
有 效 位 ”磁盘 地 址 





常 驻 存储 器 的 页 表 、、 人 、 
DA ~ WW3 


图 9-6 VM 缺 页 〈 之 前 )。 对 VP3 中 的 字 的 引用 不 命中 ， 从 而 触发 了 缺 页 


物理 存储 器 


虚拟 地 址 (DRAM) 






null 人 \、 虚拟 存储 器 
有 (磁盘 ) - 


驻 存 储 器 的 页 表 、、、、、 
I a 


z : 
图 9-7 VM 缺 页 〈 之 后 )。 缺 页 处 理 程序 选择 VP 4 作为 牺牲 页 ， 并 从 磁盘 上 用 VP 3 的 拷贝 取代 它 。 
在 缺 页 处 理 程序 重新 启动 导致 缺 页 的 指令 之 后 ， 该 指令 将 从 存储 器 中 正常 地 读 取 字 ， 而 不 会 再 
产生 异常 : 


9.3.5 ”分配 页 面 , 

图 9-8 展示 了 当 操 作 系统 分 配 一 个 新 的 虚拟 存储 器 页 时 对 我 们 示例 页 表 的 影响 ， 例 如 ， 调 用 
malloc 的 结果 。 在 这 个 示例 中 ， 通 过 在 磁盘 上 创建 空间 并 更 新 PTE 5， 使 它 指向 磁盘 上 这 个 新 
创建 的 页 面 ， 从 而 分 配 VP 5。 : 
9.3.6 又 是 局 部 性 救 了 我 们 四 

当 我 们 中 的 许多 人 都 了 解 了 虚拟 存储 器 的 概念 之 后 ， 我 们 的 第 一 印象 通常 是 它 的 效率 应 该 是 
非常 低 的 。 因 为 不 命中 处 罚 很 大 ， 我 们 会 担心 页 面 调度 会 破坏 程序 性 能 。 实 际 上 ， 虚 拟 存储 器 工 
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作 得 相当 好 ， 这 主要 归功 于 我 们 的 老 朋 友 局 部 性 (locality )。 

”尽管 在 整个 运行 过 程 中 程序 引用 的 不 同 页 面 的 总 数 可 能 超出 物理 存储 器 总 的 天 小 但 是 局 部 
性 原则 保证 了 在 任意 时 刻 ， 程 序 将 往往 在 一 个 较 小 的 活动 页 面 (active page) 集合 上 工作 ， 这 个 
集合 叫做 工作 集 (working set) 或 者 常 


ee = ”物理 存储 器 
驻 集 (resident set)。 在 初始 开销 ， 也 就 i (DRAM ) 





是 将 工作 集 页 面 调度 到 存储 器 中 之 后 ， 有 效 位 “磁盘 地 址 VP1 |PP0 

接 下 来 对 这 个 工作 集 的 引用 将 导致 命 PIE0|0| nl -一 i 

中 ， 而 不 会 产生 额外 的 磁盘 流量 。 | | VP3 |PpP3 
只 要 我 们 的 程序 有 好 的 时 间 局 部 

性 ， 虚 拟 存储 器 系统 就 能 工作 得 相当 

好 。 但 是 ， 当 然 不 是 所 有 的 程序 都 能 ES 

展现 良好 的 时 间 局 部 性 。 i 下 人 的 页 和 、 Re 


的 大 小 超出 了 物理 存储 器 的 大 小 ， RS 
么 程序 将 产生 一 种 不 幸 的 状态 ， SEE 二 
颠 徐 (thrashing)， 这 时 页 面 将 不 断 地 a 
换 进 换 出 。 虽 然 虚 拟 存储 器 通常 是 有 7 
效 的， 但 是 如 果 一 个 程序 性 能 慢 得 像 ”图 9.8 分 配 一 个 新 的 虚拟 页 面 。 内 核 在 磁盘 上 分 配 VP 5， 
息 一 样 ， 那 么 聪明 的 程序 员 会 考虑 是 并 且 将 PTE 5 指向 这 个 新 的 位 置 
不 是 发 生 了 凑 艇 。 

统计 缺 页 次 数 


你 可 以 利用 Unix 的 getrusage 函数 监测 缺 页 的 数量 (以 及 许多 其 他 的 信息 ) 
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在 上 一 节 中 ， 我 们 看 到 虚拟 存储 器 是 如 何 提 供 一 种 机 制 ， 利 用 DRAM 缓存 来 自 通 常 更 大 的 
虚拟 地 址 空间 的 页 面 。 有趣 的 是 ， 一 些 早期 的 系统 ， 比 如 DEC PDP-11/70， 支 持 的 是 一 个 比 物理 
存储 器 更 小 的 虚拟 地 址 空间 。 然 而 ， 虚 拟 地 址 仍然 是 一 个 有 用 的 机 制 ， 因 为 它 大 大 地 简化 了 存储 
器 管理 ， 并 提供 了 一 种 自然 的 保护 存储 器 的 方法 。 

到 目前 为 止 ， 我 们 都 假设 有 一 个 单独 的 页 表 ， 将 一 个 虚拟 地 址 空间 映射 到 物理 地 址 空间 。 实 
际 上 ， 操 作 系统 为 每 个 进程 提供 了 一 个 独立 的 页 表 ， 因 而 也 就 是 一 个 独立 的 虚拟 地 址 空间 。 图 
9-9 展示 了 基本 思想 。 在 这 个 示例 中 ， 进 物理 存储 器 
程 i 的 页 表 将 VP 1 映射 到 PP2，VP2 映 ed 0 
射 到 PP7。 相 似 地 ， 进 程 j 的 页 表 将 VP 1 a 
映射 到 PP 7，VP 2 映射 到 PP 10。 注 意 ， 六 
多 个 虚拟 页 面 可 以 映射 到 同一 个 共享 物 
理 页 面 上 。 

_ 接 需 页 面 调 度 和 独立 的 虚拟 地 址 空 a 
癌 的 结合 ， 对 系统 中 存储 器 的 使 有 和 管 “Br |， 
理 造 成 了 深远 的 影响 。 特 别 地 ，VM 简 


sn pe hh ee Wa 6 图 9-9 VM 如 何 为 进程 提供 独立 的 地 址 空间 。 操 作 系统 为 
系统 中 的 每 个 进程 都 维护 一 个 独立 的 页 表 
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。 简 化 链接 。 独 立 的 地 址 空间 允许 每 个 进程 的 存储 器 映像 使 用 相同 的 基本 格式 ， 而 不 管 代 
码 和 数据 实际 存放 在 物理 存储 器 的 何 处 。 例 如 ， 像 我 们 在 图 8-13 中 看 到 的 , 一 个 给 定 的 
Linux 系统 上 的 每 个 进程 都 使 用 类 似 的 存储 器 格式 。 文 本 节 总 是 从 虚拟 地 址 0x08048000 

处 开始 (对 于 32 位 地 址 空间 )， 或 者 从 0x400000 处 开始 (对 于 64 位 地 址 空间 )。 数 据 和 

bss 节 紧 跟 在 文本 节 后 面 。 栈 占据 进程 地 址 空间 最 高 的 部 分 ， 并 加 下 生长 。 这 样 的 一 致 性 

极 大 地 简化 了 链接 器 的 设计 和 实现 ， 人 允许 链接 器 生成 全 链接 的 可 执行 文件 ， 这 些 可 执行 文 

件 是 独立 于 物理 存储 器 中 代码 和 数据 的 最 终 位 置 的 。 

。 简 化 加 载 。 虚 拟 存 储 器 还 使 得 容易 向 存储 器 中 加 载 可 执行 文件 和 共享 对 象 文 件 。 回 想 一 下 

第 7 章 ， 在 ELF 可 执行 文件 中 .text 和 .data 节 是 连续 的 。 要 把 这 些 节 加 载 到 一 个 新 创 

建 的 进程 中 ，Linux 加 载 器 分 配 虚拟 页 的 一 个 连续 的 片 (chunk)， 从 地 址 0x08048000 处 

开始 (对 于 32 位 地 址 空间 )， 或 者 从 0x400000 处 开始 (对 于 64 位 地 址 空间 )， 把 这 些 虚 

拟 页 标记 为 无 效 的 〈( 即 未 被 缓存 的 )， 将 页 表 条 目 指 向 目标 文件 中 适当 的 位 置 。 有 趣 的 是 ， 

加 载 器 从 不 实际 拷贝 任何 数据 从 磁盘 到 存储 器 。 在 每 个 页 初次 被 引用 时 ， 要 么 是 CPU 取 指 

令 时 引用 的 ， 要 么 是 一 条 正在 执行 的 指令 引用 一 个 存储 器 位 置 时 引用 的 ， 虚 拟 存储 器 系统 

会 按照 需要 自动 地 调 人 数据 页 。 

将 一 组 连续 的 虚拟 页 映射 到 任意 一 个 文件 中 的 任意 位 置 的 表示 法 称 做 存储 器 映射 (memory 
mapping)。Unix 提供 一 个 称 为 mmap 的 系统 调用 ， 允许 应 用 程序 自己 做 存储 器 映射 。 我 们 会 在 
9.8 节 中 更 详细 地 描述 应 用 级 存储 器 映射 。 

。 简 化 共享 。 独 立地 址 空 : 间 为 操作 系统 提供 了 一 个 管理 用 户 进程 和 操作 系统 自身 之 间 共享 的 一 

致 机 制 。 一 般 而 言 ， 每 个 进程 都 有 自己 私有 的 代码 、 数 据 、 堆 以 及 栈 区 域 ， 是 不 和 其 他 进程 

共享 的 。 在 这 种 情况 下 ， 操 作 系 统 创建 页 表 ， 将 相应 的 虚拟 页 映射 到 不 同 的 物理 页 面 。 

. 然而 ， 在 一 些 情况 下 ， 还 是 需要 进程 来 共享 代码 和 数据 。 例 如 ， 每 个 进程 必须 调用 相同 的 操 
作 系 统 内 核 代码 ， 而 每 个 C 程序 都 会 调用 C 标准 库 中 的 程序 ， 如 printf。 操 作 系 统 通过 将 不 
同 进程 中 适当 的 虚拟 页 面 映射 到 相同 的 物理 页 面 ， 从 而 安排 多 个 进程 共享 这 部 分 代码 的 一 个 撕 
贝 ， 而 不 是 在 每 个 进程 中 都 包括 单独 的 内 核 和 C 标准 库 的 拷贝 ， 如 图 9-9 所 示 。 

。 简 化 存储 器 分 配 。 虚 拟 存储 器 为 加 用 户 进程 提供 一 个 简单 的 分 配额 外 存储 器 的 机 制 。 当 一 

个 运行 在 用 户 进程 中 的 程序 要 求 额外 的 堆 空 间 时 (如 调用 malloc 的 结果 )， 操 作 系 统 分 

配 一 个 适当 数字 (例如) 个 连续 的 虚拟 存储 器 页 面 ， 并 且 将 它们 映射 到 物理 存储 器 中 任 

意 位 置 的 大 个 任意 的 物理 页 面 。 由 于 页 表 工 作 的 方式 ， 操 作 系统 没有 必要 分 配 丰 个 连续 的 

物理 存储 器 页 面 。 页 面 可 以 随机 地 分 散在 物理 存储 器 中 。 


9.5 “虚拟 存储 器 作为 存储 器 保护 的 工具 


任何 现代 计算 机 系统 必须 为 操作 系统 提供 手段 来 控制 对 存储 器 系统 的 访问 。 不 应 该 允许 一 个 
用 户 进程 修改 它 的 只 读 文 本 段 。 而 且 也 不 应 该 允许 它 读 或 修改 任何 内 核 中 的 代码 和 数据 结构 。 不 
应 该 允许 它 读 或 者 写 其 他 进程 的 私有 存储 器 ， 并 且 不 允许 它 修改 任何 与 其 他 进程 共享 的 虚拟 页 
面 ， 除 非 所 有 的 共享 者 都 显 式 地 允许 它 这 么 做 (通过 调用 明确 的 进程 间 通信 系统 调用 )。 

就 像 我 们 所 看 到 的 ， 提 供 独 立 的 地 址 空间 使 得 分 离 不 同 进程 的 私有 存储 器 变 得 容易 。 但 是 ， 
地 址 翻译 机 制 可 以 以 一 种 自然 的 方式 扩展 到 提供 更 好 的 访问 控制 。 因 为 每 次 CPU 生成 一 个 地 址 
时 ， 地 址 翻译 硬件 都 会 读 一 个 PTE， 所 以 通过 在 PTE 上 添加 一 些 额外 的 许可 位 来 控制 对 一 个 虚 
拟 页 面 内 容 的 访问 十 分 简单 。 图 9-10 展示 了 大 致 的 思想 。 : 

在 这 个 示例 中 ， 每 个 PTE 中 已 经 添加 了 三 个 许可 位 。SUP 位 表示 进程 是 否 必须 运行 在 内 核 
(超级 用 户 ) 模式 下 才能 访问 该 页 。 运 行 在 内 核 模 式 中 的 进程 可 以 访问 任何 页 面 ， 但 是 运行 在 用 
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户 模式 中 的 进程 只 允许 访问 那些 SUP 为 0 的 页 面 。READ 位 和 WRITE 位 控制 对 页 面 的 读 和 写 访 
间 。 例 如 ， 如 果 进 程 i 运行 在 用 户 模式 下 ， 那 么 它 有 读 VP 0 和 读 写 VP 1 的 权限 。 然 而 ， 不 允许 
它 访问 VP 2。 : 

如 果 一 条 指令 违反 了 这 些许 可 条 件 ， 那 么 CPU 就 触发 一 个 一 般 保护 故障 ， 将 控制 传递 给 一 
个 内 核 中 的 异常 处 理 程 序 。Unix 外 壳 一 般 将 这 种 异常 报告 为 “ 段 错 误 ”(segmentation fault)。 


带 许可 位 的 页 表 
SUP READ WRITE ”地址 





进程 i: 


SUP READ WRITE 地 址 
wo [天 [是 [ 香 [ PP9 | 

进 碌 疡 Vpl| 是 | 是 | 是 | 本 6 一 
vpz [天 二 是 | 是 | 可 1 


图 9-10 用 虚拟 存储 器 来 提供 页 面 级 的 存储 器 保护 


9.6 ”地 址 翻译 

这 一 节 讲述 的 是 地 址 翻译 的 基础 知识 。 我 们 的 目标 是 让 你 对 硬件 在 支持 虚拟 存储 器 中 的 角色 
有 正确 的 评价 ， 并 给 你 足够 多 的 细节 使 得 你 可 以 亲手 演示 一 些 具体 的 示例 。 不 过 ， 要 记 住 我 们 省 
略 了 大 量 的 细节 ， 尤 其 是 和 时 序 相关 的 细节 ， 虽 然 这 些 细节 对 硬件 设计 者 来 说 是 非常 重要 的 ， 但 
是 超出 了 我 们 讨论 的 范围 。 图 9-11 概括 了 我 们 在 本 节 将 要 使 用 的 所 有 符号 ， 供 读者 参考 。 


基本 参数 





图 9-11 地 址 翻译 符号 小 结 
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形式 上 来 说 ， 地 址 翻译 是 一 个 Y 元 素 的 虚拟 地 址 空间 (VAS) 中 的 元 素 和 一 个 M 元 素 的 物 
理 地 址 空间 (PAS) 中 元 素 之 间 的 映射 ， 
MAP:VAS ~— PAS UY 
这 里 
A 如 果 虚 拟 地 址 4A 处 的 数据 在 PAS 的 物理 地 址 A4' 处 
8 如 果 虚 拟 地 址 4 处 的 数据 不 在 物理 存储 器 中 


图 9-12 展示 了 MMU 如 何 利用 页 表 来 实现 这 种 映射 。CPU 中 的 一 个 控制 寄存 器 ， 页 表 基 
址 寄存 器 (Page Table Base Register，PTBR) 指向 当前 页 表 。n 位 的 虚拟 地 址 包含 两 个 部 分 : 一 
个 p 位 的 虚拟 页 面 偏 移 (Virtual Page Offset，VPO) 和 一 个 (np) 位 的 虚拟 页 号 (Virtual Page 
Number，VPN)。MMU 利用 VPN 来 选择 适当 的 PTE。 例 如 ，VPN 0 选择 PTE 0，VPN 1 选择 
PTE 1， 以 此 类 推 。 将 页 表 条 目 中 物理 页 号 (Physical Page Number，PPN ) 和 虚拟 地 址 中 的 VPO 
串联 起 来 ， 就 得 到 相应 的 物理 地 址 。 注 意 ， 因 为 物理 和 虚拟 页 面 都 是 已 字 节 的 ， 所 以 物理 页 面 
偏 移 (Physical Page Offset，PPO) 和 VPO 是 相同 的 。 


MAP (A) -| 


~ 







有 效 位 物理 页 号 (PPN ) 
vyPN 作 为 上 上 \ re 
到 责 雪 市 让 | -| 


如 果 有 效 位 =0，- 

那么 页 面 就 不 在 

存储 器 中 ( 缺 页 ) m-l1 0 

: 物理 页 号 ( PPN ) ” ”上 物理 页 偏 移 量 (PPO ) 
物理 地 址 

图 9-12 使 用 页 表 的 地 址 翻译 


图 9-13a 展示 了 当 页 面 命中 时 ，CPU 硬件 执行 的 步 又 。 

, 第 一 步 ; 处 理 器 生成 一 个 虚拟 地 址 ， 并 把 它 传送 给 MMU。 

“第 二 步 ; MMU 生成 PTE 地 址 ， 并 从 高 速 缓存 / 主 存 请 求 得 到 它 。 

. 第 三 步 ; 高 速 缓存 / 主 存 向 MMU 返回 PTE。 

“第 四 步 ; MMU 构造 物理 地 址 ， 并 把 它 传送 给 高 速 缓存 / 主 存 。 

“第 五 步 ; 高 速 缓存 / 主 存 返 回 所 请 求 的 数据 字 给 处 理 器 。 

页 面 命中 完全 是 由 硬件 来 处 理 的 ， 与 之 不 同 的 是 ， 处 理 缺 页 要 求 硬件 和 操作 系统 内 核 协作 完 

如 图 9-13b 所 示 。 

“第 一 步 到 第 三 步 :和 图 9-13a 中 的 第 一 步 到 第 三 步 相同 。 

“第 四 步 : PTE 中 的 有 效 位 是 零 ， 所 以 MMU 触发 了 一 次 异常 ， 传 递 CPU 中 的 控制 到 操作 
系统 内 核 中 的 缺 页 异常 处 理 程序 。 

“第 五 步 : 缺 页 处 理 程序 确定 出 物理 存储 器 中 的 牺 性 页， 如 果 这 个 页 面 已 经 被 修改 了 ， 则 把 
它 换 出 到 磁盘 。 


只 
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* 第 六 步 : 缺 页 处 理 程序 页 面 调 人 新 的 页 面 ， 并 更 新 存储 器 中 的 PTE。 

“ 第 七 步 : 缺 页 处 理 程序 返回 到 原来 的 进程 ， 再 次 执行 导致 缺 页 的 指令 。CPU 将 引起 缺 页 的 
虚拟 地 址 重新 发 送 给 MMU。 因 为 虚拟 页 面 现在 缓存 在 物理 存储 器 中 ， 所 以 就 会 命中 ， 在 
MMU 执行 了 图 9-13b 中 的 步骤 之 后 ， 主 存 就 会 将 所 请 求 字 返回 给 处 理 器 。 


0 





b ) 缺 页 
图 9-13 页 面 命 中 和 缺 页 的 操作 视图 。VA : 虚拟 地 址 。PTEA : 页 表 条 目地 址 。PTE : 页 表 条 目 。 
PA : 物理 地 址 


Rl 给 定 一 个 32 位 的 虚拟 地 址 空间 和 一 个 24 位 的 物理 地 址 ， A OI 确定 
VPN、VPO、 PPN 和 PPO 中 的 位 数 : 


#VPN 位 #VPO 位 # PPN 位 # PPO 位 








9.6.1 结合 高 速 缓存 和 虚拟 存储 器 

在 任何 既 使 用 虚拟 存储 器 又 使 用 SRAM 高 速 缓 存 的 系统 中 ， 都 存在 应 该 使 用 虚拟 地 址 还 是 
使 用 物理 地 址 来 访问 SRAM 高 速 缓存 的 问题 。 尽 管 关 于 这 个 折 中 的 详细 讨论 已 经 超出 了 我 们 的 
讨论 范围 ， 但 是 大 多 数 系统 是 选择 物理 寻 址 的 。 使 用 物理 寻 址 ， 多 个 进程 同时 在 高 速 缓存 中 有 存 
储 块 和 共享 来 自 相 同 虚拟 页 面 的 块 成 为 很 简单 的 事情 。 而 且 ， 高 速 缓存 无 需 处 理 保护 问题 ， 因为 
访问 权限 的 检查 是 地 址 翻译 过 程 的 一 部 分 。 

图 9-14 展示 了 一 个 物理 寻 址 的 高 速 缓存 如 何 和 虚拟 存储 器 结合 起 来 。 主 要 的 思路 是 地 址 翻 
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评介 生 在 两 速 绥 行 得 找 之 前 。 注意 ， 页 表 条 目 可 以 缓存 ， 就 像 其 他 的 数据 字 一 样 。 





人 


Ll 
高 速 缓存 


“图 9-14 将 VM 与 物理 寻 址 的 高 速 缓存 结合 起 来 。VA : 人 PTEA : 页 表 条 目地 址 。PTE : 页 
| 表 条 目 。PA : i ee 


9. 6. 2 利用 TLB 加 速 地 址 翻译 z 

正如 我 们 看 到 的 ， 每 次 CPU 产生 一 个 虚拟 地 址 ， MMU 就 必须 查阅 一 个 PTE， 以 便 将 虚拟 
地 址 翻译 为 物理 地 址 。 在 最 糟糕 的 情况 下 ， 这 又 会 要 求 从 存储 器 取 一 次 数据 ， 代价 是 几 十 到 几 百 
个 周期 。 如 果 PTE 碰巧 缓存 在 Ll 中 ， 那么 开销 就 下 降 到 1 个 或 2 个 周期 。 然 而 ， 许多 系统 都 试 
图 消 除 是 这 样 的 开销 ， 它们 在 MMU 是 个 大 二 PTE 的 小 的 缓存 ， 称 为 翻译 后 备 丝 冲 器 
(Translation Lookaside Buffer, TLB)., 

_ TLB 是 一 个 小 的 、 虚拟 寻 址 的 缓存 ， 其 中 每 一 行 都 保存 着 一 个 由 单个 PTE 组 成 的 块 。TLB 
通常 有 高 度 的 相连 性 。 如 图 9- 15 所 示 ， 用 于 组 选择 和 行 匹配 的 索引 和 标记 字段 是 从 虚拟 地 址 中 
的 虚拟 页 号 中 提取 出 来 的 。 如 果 TLB 有 7=2 个 组 ， 那 么 TLB 索引 (CTLBI) 是 由 VPN 的 1 个 最 
低位 组 成 的 ， 而 TLB 标记 (TLBT) 是 由 VPN 


中 剩余 的 位 组 成 的 。 | p+t p+t-1 | p p-l 0 
: : [TLB 标 i TLB 索 引 (TLBI) 

图 9-16a 展 示 了 当 TLB 命 中 时 (通常 情 。” TT) TB 家 引 CTIBD 
况 ) 所 包括 的 步骤 。 这 里 的 关键 点 是 ， 所 有 的 VPN 





地 址 翻译 步骤 都 是 在 世 片 上 的 MMU 和 图 9-15 一 个 用 来 访问 TLB 的 虚拟 地 址 的 组 成 部 分 
因此 非常 快 。 


CPU 芯片 





a4) TLB 命 中 | b ) TLB 不 命中 
图 9-16 TLB 命中 和 不 命中 的 操作 视图 
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。 第 一 步 : CPU 产生 一 个 虚拟 地 址 。 

。 第 二 步 和 第 三 步 : MMU 从 TLB 中 取出 相应 的 PTE。 

"第 四 步 : MMU 将 这 个 虚拟 地 址 翻译 成 一 个 物理 地 址 ， 并 且 将 它 发 送 到 高 速 缓存 / 主 存 。 

"第 五 步 : 高 速 缓存 / 主 存 将 所 请 求 的 数据 字 返 回 给 CPU。 

当 TLB 不 命中 时 ，MMU 必须 从 Ll 缓存 中 取出 相应 的 PTE， 如 图 9-16b 所 示 。 新 取出 的 PTE 存 
放 在 TLB 中 ， 可 能 会 覆盖 一 个 已 经 存在 的 条 目 。 
9.6.3 ”多 级 页 表 

到 目前 为 止 ， 我 们 一 直 假 设 系统 只 用 一 个 单独 的 页 表 来 进行 地 址 翻译 。 但 是 如 果 我 们 有 一 个 
32 位 的 地 址 空间 、4KB 的 页 面 和 一 个 4 字 节 的 PTE， 那 么 即使 应 用 所 引用 的 只 是 虚拟 地 址 空间 
中 很 小 的 一 部 分 ， 也 总 是 需要 一 个 4MB 的 页 表 驻 留 在 存储 器 中 。 对 于 地 址 空间 为 64 位 的 系统 
来 说 ， 问 题 将 变 得 更 复杂 。 

用 来 压缩 页 表 的 常用 方法 是 使 用 层次 结构 的 页 表 。 用 一 个 具体 的 示例 是 最 容易 理解 这 个 思 
想 的 。 假 设 32 位 虚拟 地 址 空间 被 分 为 4KB 的 页 ， 而 每 个 页 表 条 目 都 是 4 字 节 。 还 假设 在 这 一 时 
刻 ， 虚 拟 地 址 空间 有 如 下 形式 , 存储 器 的 前 2K 个 页 面 分 配给 了 代码 和 数据 ， 接 下 来 的 6K 个 页 
面 还 未 分 配 ， 再 接 下 来 的 1023 个 页 面 也 未 分 配 ， 接 下 来 的 1 个 页 面 分 配给 了 用 户 栈 。 图 9-17 展 
示 了 我 们 如 何 为 这 个 虚拟 地 址 空间 构造 一 个 两 级 的 页 表层 次 结构 。 

一 级 页 表 中 的 每 个 PTE 负责 映射 虚拟 地 址 空间 中 一 个 4MB 的 片 (chunk)， 这 里 每 一 片 都 是 
由 1024 个 连续 的 页 面 组 成 的 。 比 如 ，PTE 0 映射 第 一 片 ，PTE 1 映射 接 下 来 的 一 片 ， 以 此 类 推 。 
假设 地 址 空间 是 4GB，1024 个 PTE 已 经 足够 覆盖 整个 空间 了 。 

如 果 片 i 中 的 每 个 页 面 都 未 被 分 配 ， 那 么 一 级 PTE i 就 为 空 。 例 如 ， 在 图 9-17 中 ， 户 2 一 7 
是 未 被 分 配 的 。 然 而 ， 如 果 在 片 i 中 至 少 有 一 个 页 是 分 配 了 的 ， 那 么 一 级 PTE i 就 指向 一 个 二 级 
页 表 的 基 址 。 例 如 ， 在 图 9-17 中 ， 片 0、1 和 8 的 所 有 或 者 部 分 已 被 分 配 ， 所 以 它们 的 一 级 PTE 
就 指向 二 级 页 表 。 z 

二 级 页 表 中 的 每 个 PTE 都 负责 映射 一 个 4KB 的 虚拟 存储 器 页 面 ， 就 像 我 们 查看 只 有 一 级 的 
页 表 一 样 。 注 意 ， 使 用 4 字 节 的 PTE， 每 个 一 级 和 二 级 页 表 都 是 4KB 字 节 ， 这 刚好 和 一 个 页 面 
的 大 小 是 一 样 的 。 





一 级 页 表 . 二 级 页 表 虚拟 存储 器 
l 0 
| VP1023 已 分 配 的 2K 个 代码 和 
数据 VM 页 
6K 个 未 分 配 的 VM 页 
广 1023 个 未 分 配 的 页 


了 
了 


Pe 
VP9215 | } 1 个 已 分 配 的 用 做 栈 的 VM 页 


图 9-17 一 个 两 级 页 表层 次 结构 。 注 意 地 址 是 从 上 往 下 增加 的 
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这 种 方法 从 两 个 方面 减少 了 存储 器 要 求 。 第 一 ， 如 果 一 级 页 表 中 的 一 个 PTE 是 空 的， 那么 
相应 的 二 级 页 表 就 根本 不 会 存在 ， 这 代表 着 一 种 巨大 的 潜在 节约 ， 因 为 对 于 一 个 典型 的 程序 ， 
4GB 的 虚拟 地 址 空间 的 大 部 分 都 将 是 未 分 配 的 。 第 二 ， 只 有 一 级 页 表 才 需要 总 是 在 主 存 中 ; 虚 
拟 存储 器 系统 可 以 在 需要 时 创建 、 页 面 调 人 或 调 出 二 级 页 表 ， 这 就 减少 了 主 存 的 压力 ; 只 有 最 经 
常 使 用 的 二 级 页 表 才 需要 缓存 在 主 存 中 。 

图 9-18 描述 了 使 用 级 页 表层 次 结构 的 地 址 翻译 。 虚拟 地 址 被 划分 成 为 k 个 VPN 和 1 个 
VPO。 每 个 VPN i 都 是 一 个 到 第 i 级 页 表 的 索引 ， 其 中 1 < i < k。 第 j 级 页 表 中 的 每 个 PTE， 
1 <j < 一 1， 都 指向 第 j+ 1 级 的 某 个 ee 
页 表 的 基 址 。 第 级 页 表 中 的 每 个 PTE ，_] p-1 0 
包含 某 个 物理 页 面 的 PPN 或 一 个 磁盘 |9 VPN1 lvN2 | :… JoveNr | vro | 
块 的 地 址 。 为 了 构造 物理 地 址 ， 在 能 够 了 
确定 PPN 之 前 MMU 必须 访问 个 1 级 页 表 ”| 2 级 页 表 上 级 页 表 
PTE。 对 于 只 有 一 级 的 页 表 结 构 ，PPO = 
和 VPO 是 相同 的 。 

访问 k 个 PTE， 第 一 眼看 上 去 昂贵 
而 不 切实 际 。 然 而 ， 这 里 TLB 能 够 起 m-1 / a 





作用 ， 是 通过 将 不 同 层 次 上 页 表 的 PTE PPN _PPO | 
缓存 起 来 。 实 际 上 ， 带 多 级 页 表 的 地 址 物理 地 址 
翻译 并 不 比 单 级 页 表 慢 很 多 。 图 9-18 使 用 大 级 页 表 的 地 址 翻译 


9.6.4 综合 : 端 到 端的 地 址 翻译 

在 这 一 节 里 ， 我 们 通过 一 个 具体 的 端 到 端的 地 址 翻译 示例 ， 来 综合 一 下 我 们 刚 学 过 的 这 些 内 
容 ， 这 个 示例 运行 在 有 一 个 TLB 和 Ll d-cache 的 小 系统 上 。 为 了 保证 可 管理 性 ， 我 们 做 出 如 下 
假设 : 

。 存储器 是 按 字 节 寻 址 的 。 

。 存储 器 访问 是 针对 1 字 节 的 字 的 〈 不 是 4 字 节 的 字 )。 

。 虚拟 地 址 是 14 位 长 的 (n= 14)。 

* 物理 地 址 是 12 位 长 的 〈m = 12)。 

。 页面 大 小 是 64 字 节 (P= 64)。 

。TLB 是 四 路 组 相连 的 ， 总 共有 16 个 条 目 。 

“L1 d-cache 是 物理 寻 址 、 直 接 映 射 的 ， 行 大 小 为 4 字 节 ， 而 总 共有 16 个 组 。 

图 9-19 展示 了 虚拟 地 址 和 物理 地 址 的 格式 。 因 为 每 个 页 面 是 2 = 64 字 节 ， 所 以 虚拟 地 址 和 
物理 地 址 的 低 6 位 分 别 作为 VPO 和 PPO， 虚 拟 地 址 的 高 8 位 作为 VYPN， 物 理 地 址 的 高 6 位 作为 
PPN。 





13 12 11 10 9 8 7 6 5 4 3 2 1 0 
虚拟 地 址 
4 YPN VEO 
(虚拟 页 号 》 (虚拟 页 偏 移 ) 
ll 10 9 8 7 6 5 4 3 2 1 0 


wut CTLTTTTTTTTTTI 


PRN CPh0 = 


“(物理 页 号 ) ( 物理 页 偏 移 ) 
图 9-19 小 存储 器 系统 的 寻 址 。 假 设 14 位 的 虚拟 地 址 (n = 14)，12 位 的 物理 地 址 (m = 12) 和 64 字 
节 的 页 面 (P= 64) 
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图 9-20 展示 了 我 们 小 存储 器 系统 的 一 个 快照 ， 包 括 TLB ( 见 图 9-20a)、 页 表 的 一 部 分 〈 见 
图 9-20b) 和 LI1 高 速 缓存 ( 见 图 9-20c)。 在 TLB 和 高 速 缓存 的 图 上 面 ， 我 们 还 展示 了 访问 这 些 
设备 时 硬件 是 如 何 划分 庶 拟 地 址 和 物理 地 址 的 位 的 。 





TLBT 





13 12 1l 10 9 8 7 6 5 4 3 2 1 0 





位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 
o|%3 | -01olm|1ol- oo 
i[%s aD| 1 | -|olom|l-|o [oml-[o 
2[ 吧 | -| 0|og| -10lol -olol- oo 
3 和 过 天 于 区 吉 本 


a) TLB: .四 组 ， 16 个 条 目 ， 四 路 组 相 联 











VPN PPN 有 效 位 VPN PPN 有 效 位 





b) 页 表 : 只 展示 了 前 16 个 PTE 





4 一 一 (CT 一 4 CO 一 > 








索引 标记 位 有 效 位 块 0 块 1 块 2 块 3 
o[sTrrogfarafr 





» 
2|[IB | 1 |00 |0| 0 | 08 
3 0 | Ou | Sl 
4|32 | 1 |4|6D| ge| 0 
sp 1 ln [ls 
6 | 
7|1e | 1 1 
8| 24 | 1|3A| 0|51| 9 
PD 0 必 三 为 本 天 
A| 2D 93 
B on ores 
CE | 居民 = 用 本 
D|16|1|o4|9%|34|35| 
El|13 18117139B D3| 






FL4 | oof-— 
c) 高 速 缓存 ;16 个 组 ，4 字 节 的 块 ， 直 接 映射 


图 9-20 ”小 存储 器 系统 的 TLB 、 页 表 以 及 缓存 。TLB、 页 表 和 缓存 中 所 有 的 值 都 是 十 六 进 制 表示 的 
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。TLB。TLB 是 利用 VPN 的 位 进行 虚拟 寻 址 的 。 因 为 TLB 有 四 个 组 ， 所 以 VPN 的 低 两 位 就 
作为 组 索引 〈TLBI)。VPN 中 剩 下 的 高 6 位 作为 标记 (TLBT)7， 用 来 区 别 可 能 映射 到 同一 
个 TLB 组 的 不 同 的 VPN。 
。 页 表 。 这 个 页 表 是 一 个 单 级 设计 ， 一 共有 2 =256 个 页 表 条 目 (PTE)。 然 而 ， 我 们 只 对 这 
些 条 目 中 的 开头 16 个 感 兴趣 。 为 了 方便 ， 我 们 用 索引 它 的 VPN 来 标识 每 个 PTE ; 但 是 要 
记 住 这 些 VPN 并 不 是 页 表 的 一 部 分 ， 也 不 储存 在 存储 器 中 。 另 外 ， 注 意 每 个 无 效 PTE 的 
PPN 都 用 一 个 破 折 号 来 表示 ， 以 加 强 一 个 概念 : 无 论 刚 好 这 里 存储 的 是 什么 位 值 ， 都 是 没 
有 任何 意义 的 。 四 
。 高 速 组 在。 直接 映射 的 缓存 是 通过 物理 地 址 中 的 字段 来 寻 址 的 。 因 为 每 个 块 都 是 4 字 节 ， 
所 以 物理 地 址 的 低 2 位 作为 块 偏 移 (CO)。 因 为 有 16 组 ， 所 以 接 下 来 的 4 位 就 用 来 表示 组 
索引 (CI)。 剩 下 的 6 位 作为 标记 (CT)。 
给 定 了 这 种 初始 化 设 定 ， 让 我 们 来 看 看 当 CPU 执行 一 条 读 地 址 0x03d4 处 字 节 的 加 载 指令 
时 会 发 生 什么 。( 回 想 一 下 我 们 假定 CPU 读 取 1 字 节 的 字 ， 而 不 是 4 字 节 的 字 。) 为 了 开始 这 种 
手工 的 模拟 ， 我 们 发 现 写 下 虚拟 地 址 的 各 个 位 ， 标识 出 我 们 会 需要 的 各 种 字段 ， 并 确定 它们 的 
十 六 进 制 值 ， 这 是 非常 有 帮助 的 。 当 硬件 解码 地 址 时 ， 它 也 执行 相似 的 任务 。 










7 6 


VA = 0x03d4 1 1 
OxXOf Ox14 


开始 时 ，MMU 从 虚拟 地 址 中 抽取 出 VPN (0x0F)， 并 且 检 查 TLB， 看 它 是 否 因为 前 面 的 
某 个 存储 器 引用 ， 缓 存 了 了 PTE 0x0F 的 一 个 拷贝 。TLB 从 VPN 中 抽取 出 TLB 索引 (0x03) 和 
TLB 标记 (0x3)， 组 0x3 的 第 二 个 条 目 中 有 效 匹配 ， 所 以 命中 ， 然后 将 缓存 的 PPN (0x0D) 
返回 给 MMU.。 

如 果 TLB 不 命中 ， 那 么 MMU 就 需要 从 主 存 中 取出 相应 的 PTE。 然而 ， 在 这 种 情况 下 ， 我 
们 很 幸运 ，TLB 会 命中 。 现 在 ，MMU 有 了 形成 物理 地 址 所 需要 的 所 有 东西 。 它 通过 将 来 自 PTE 
的 PPN (0x0D) 和 来 自 虚拟 地 址 的 VPO (0x14) 连接 起 来 ， 这 就 形成 了 物理 地 址 (0x354)。 

” 接 下 来 ，MMU 发 送 物理 地 址 给 缓存 ， 组 存 从 物理 地 址 中 抽取 出 缓存 偏 移 CO 〈0x0)、 组 存 

组 索引 CI (0x5) 以 及 缓存 标记 CT COs Ds 





: 因为 组 0x5 中 的 标记 与 CT 相 匹配 ， 所 以 缓存 检测 到 一 个 命中 ， 恋 出 在 侦 移 县 CO 处 的 数据 
字 节 (0x36)， 并 将 它 返回 给 MMU， 随 后 MMU 将 它 传递 回 CPU。 
翻译 过 程 的 其 他 路 径 也 是 可 能 的 。 例如 ， 如 果 TLB 不 命中 ， 那 么 MMU 必须 从 页 表 中 的 PTE 
中 取出 PPN。 如 果 得 到 的 PTE 是 无 效 的 ， 那么 就 产生 一 个 缺 页 ， 内 核 必须 调和 人 合适 的 页 面 ， 重 新 
运行 这 条 加 载 指令 。 另 一 种 可 能 性 是 PTE 是 有 效 的 ， 但 是 所 需要 的 存储 器 块 在 缓存 中 不 命中 。 
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区 对 练习 题 9.4 说明 9.6.4 节 中 的 示例 存储 器 系统 是 如 何 将 一 个 虚拟 地 址 翻译 成 一 个 物理 地 址 和 访问 缓存 
的 。 对 于 给 定 的 虚拟 地 址 ， 指 明 访问 的 TLB 条 目 、 物 理 地 址 和 返回 的 高 速 缓存 字 节 值 。 指 出 是 否 发 生 
了 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 以 及 是 否 发 生 了 缓存 不 命中 。 如 果 是 缓存 不 命中 ， 在 “返回 的 缓存 
字 节 ” 栏 中 输入 “一 ”。 如 果 有 缺 页 ， 则 在 “PPN” 一 栏 中 输入 “一 ” 并 且 将 C 部 分 和 D 部 分 空 着 。 
虚拟 地 址 : 0x03d7 
A. 虚拟 地 址 格式 
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B. 地 址 翻译 
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C. 物理 地 址 格式 


D. 物理 存储 器 引用 
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9.7 ”案例 研究 : Intel Core i7/Linux 存储 器 系统 


我 们 以 一 个 实际 系统 的 案例 研究 来 概括 我 们 对 缓存 和 虚拟 存储 器 的 讨论 : 一 个 运行 Linux 的 
Intel Core i7。Core i7 是 基于 Nehalem 微 体系 结构 的 。 虽然 Nehalem 设计 允许 完全 的 64 位 虚拟 
和 物理 地 址 空间 ， 而 现在 的 (以 及 可 预见 的 未 来 的 ) Core i7 实现 支持 48 位 (256 TB) 虚拟 地 址 
空间 和 52 位 (4 PB) 物理 地 址 空间 ， 还 有 一 个 兼容 模式 ， 支 持 32 位 (4 GB) 虚拟 和 物理 地 址 
空间 。 

图 9-21 给 出 了 Core i7 存储 器 系统 的 重要 部 分 。 处 理 器 包 (processor package) 包括 四 个 核 、 
一 个 大 的 所 有 核 共享 的 L3 高 速 缓存 ， 以 及 一 个 DDR3 存储 器 控制 器 。 每 个 核 包含 一 个 层次 结构 
的 TLB、 一 个 层次 结构 的 数据 和 指令 高 速 缓存 ， 以 及 一 组 快速 的 点 到 点 连接 ， 这 种 连接 是 基于 
Intel QuickPath 技术 的 ， 是 为 了 让 一 个 核 与 其 他 核 和 外 部 VO 桥 直 接 通信 。TLB 是 虚拟 寻 址 的 ， 
是 四 路 组 相连 的 。L1、L2 和 1L3 高 速 缓存 是 物理 寻 址 的 ， 是 八路 组 相连 的 ， 块 大 小 为 64 字 节 。 
页 大 小 在 启动 时 被 配置 为 4KB 或 4MB。Linux 使 用 的 是 4KB 的 页 。 : 
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户 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 一 


核 x4- 


MMU | " 
1- e 


L1 d-cache L1l i-cach L1 d-TLB Ll i-TLB 
32 KB, 8 路 32 KB，8 路 64 个 条 目 ，4 路 | | 128 个 条 目 ，4 路 | 
工 2 统一 高 速 缓存 “| L2 统一 TLB 

256KB，8 路 512 个 条 目 , 4 路 i 


QuickPath 互 连 ，4 条 | 
链 路 @ 25.6 GB/s 时 到 其 他 核 






总 共 102.4 GB/s | :~ 到 LO 桥 
L3 统一 高 速 缓存 DDR3 存储 器 控制 器 
8MB，16 路 3 x 64 位 @ 10.66 GB/s 
(所 有 的 核 共享 ) 总 共 32 GB/s 所 有 的 核 共 享 ) 


图 9-21 Core i7 存储 器 系统 


9.7.1 ”Core i7 地 址 翻译 

图 9-22 总 结 了 完整 的 Core i7 地 址 翻译 过 程 ， 从 CPU 产生 虚拟 地 址 的 时 刻 一 直到 来 自 存储 
器 的 数据 字 到 达 CPU。Core i7 采用 四 级 页 表层 次 结构 。 每 个 进程 有 它 自己 私有 的 页 表层 次 结构 。 
当 一 个 Linux 进程 正在 运行 时 ， 虽 然 Core i7 体系 结构 允许 页 表 换 进 换 出 ， 与 已 分 配 了 的 页 相关 
联 的 页 表 都 是 驻 留 在 存储 器 中 的 。CR3 控制 寄存 器 指向 第 一 级 页 表 〈(L1) 的 起 始 位 置 。CR3 的 
值 是 每 个 进程 上 下 文 的 一 部 分 ， 每 次 上 下 文 切换 时 ，CR3 的 值 都 会 被 重 置 。 

图 9-23 给 出 了 第 一 级 、 第 二 级 或 第 三 级 页 表 中 条 目的 格式 。 当 P= 1 时 (Linux 中 就 总 是 如 
此 )， 地 址 字段 包含 一 个 40 位 物理 页 号 (PPN)， 它 指向 适当 的 页 表 的 开始 处 。 注 意 ， 这 强加 了 
一 个 要 求 ， 要 求 物理 页 表 4 KB 对 齐 。 

9-24 给 出 了 第 四 级 页 表 中 条 目的 格式 。 当 P= 1， 地 址 字段 包括 40 位 PPN， 它 指向 物理 
存储 器 中 某 一 页 的 基地 址 。 这 又 强加 了 一 个 要 求 ， 要 求 物理 页 4 KB 对 齐 。 

PTE 有 三 个 权限 位 ， 控 制 对 页 的 访问 。R/W 位 确定 页 的 内 容 是 可 以 读 写 的 还 是 只 读 的 。U/ 
S 位 确定 是 否 能 够 在 用 户 模式 中 访问 该 页 ， 从 而 保护 操作 系统 内 核 中 的 代码 和 数据 不 被 用 户 程 
序 访问 。XD (禁止 执行 ) 位 是 在 64 位 系统 中 引入 的 ， 可 以 用 来 禁止 从 某 些 存储 器 页 取 指 令 。 
这 是 一 个 重要 的 新 特性 ， 通 过 限制 只 能 执行 只 读 文 本 段 ， 使 得 操作 系统 内 核 降 低 了 缓冲 区 溢出 

当 MMU 翻译 每 一 个 虚拟 地 址 时 ， 它 还 会 更 新 另外 两 个 内 核 缺 页 处 理 程序 会 用 到 的 位 。 每 次 
访问 一 个 页 时 ，MMU 都 会 设置 A 位 ， 称 为 引用 位 .(reference bit)。 内 核 可 以 用 这 个 引用 位 来 实 
现 它 的 页 替换 算法 。 每 次 对 一 个 页 进行 了 写 之 后 ，MMU 都 会 设置 D 位 ， 又 称 脏 位 〈dirty bit)。 
脏 位 告诉 内 核 在 拷贝 替换 页 之 前 是 否 必须 写 回 牺牲 页 。 内 核 可 以 通过 调用 一 条 特殊 的 内 核 模式 指 
令 来 清除 引用 位 或 脏 位 。 
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图 9-22 ”Core i7 地 址 翻译 的 概况 。 为 了 简化 ， 没 有 显示 i-cache、i-TLB 和 LL2 统一 TLB 
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i _ _| 
0 2 
对 于 所 有 可 沪 问 页 ， 用 户 或 超级 用 户 《 内 校 模式 访问 权限 
子 页 表 的 直 写 或 写 回 级 存 策略 : 
z 
es 
页 大 小 为 4KB 或 4 MB J PTE 定义 ) 
| 能 /不 能 从 这 个 PTE 访问 所 有 页 中 放 条 车 


图 9-23 WA WA 


图 9-25 给 出 了 Core i7 MMU 如 何 使 用 四 级 的 页 表 来 将 虚拟 地 址 翻译 成 物理 地 址 。36 位 VPN 
被 划分 成 四 个 9 位 的 片 ， 每 个 片 被 用 作 到 一 个 页 表 的 偏 移 量 。CR3 寄存 器 包含 L1 页 表 的 物理 地 
址 。VPN 1 提供 到 一 个 Ll PET 的 偏 移 量 ， 这 个 PTE 包含 12 页 表 的 基地 址 。 VPN2 提供 到 dl 
L2 PTE 的 偏 移 量 ， 以 此 类 推 。 
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描述 


子 页 表 在 物理 存储 器 中 (1)， 不 在 〈0) 


对 于 子 页 ， 只 读 或 者 读 写 访问 权限 


子 页 的 直 写 或 写 回 缓存 策略 


”全 局 页 (在 任务 切换 时 ， 不 从 TLB 中 驱逐 出 去 ) 


子 页 物理 基地 址 的 最 高 40 位 
能 /不 能 从 这 个 子 页 中 取 指 令 


图 9-24 第 四 级 页 表 条 目的 格式 。 每 个 条 目 引 用 一 个 4KB 子 页 
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页 全 局 目录 
40 directory 


L2 PT 


页 上 层 目 录 
40 directory 


L3 PT 


页 中 层 目 录 
40 directory 











CR3 
Ll PT 的 
物理 地 址 
]2 到 物理 和 虚拟 
页 的 偏 移 量 
每 个 条 目 每 个 条 目 每 个 条 目 每 个 条 目 
512 GB 区 域 1 GB 区 域 2 MB 区 域 4 KB 区 域 
40 12 
PPN PPO | 物理 地 址 


图 9-25 Core 17 页 表 翻 译 。 图 例 . PT. 页 表 ， PTIE : 页 表 条 目 9 VPN : 虚拟 页 号 ， VPO : 虚拟 页 偏 移 ， 
PPN : 物理 页 号 ，PPO : 物理 页 偏 移 量 。 图 中 还 给 出 了 这 四 级 页 表 的 Linux 名 字 


优化 地 址 翻译 

在 对 地 址 翻译 的 讨论 中 ， 我 们 描述 了 一 个 顺序 的 两 个 步骤 的 过 程 ，1) MMU 将 虚拟 地 址 翻 
译 成 物理 地 址 ，2) 将 物理 地 址 传送 到 工 ] 高 速 组 在。 然而， 实际 的 硬件 实现 使 用 了 一 个 灵巧 的 技 
巧 ， 允 许 这 些 步骤 部 分 重 登 ， 因 此 也 就 加 速 了 对 工 ] 高 速 缓存 的 访问 。 例 如 ， 页 面 大 小 为 4KB 的 
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Core 17 系统 上 的 一 个 虚拟 地 址 有 12 位 的 VPO， 并 且 这 些 位 和 相应 物理 地 址 中 的 PPO 的 12 位 是 
相同 的 。 因 为 八路 组 相连 的 、 物 理 寻 址 的 Ll 高 速 缓存 有 64 个 组 和 大 小 为 64 字 节 的 线 存 块 ， 每 
0 6 个 (log,64) 缓存 偏 移 位 和 6 个 (log;64) 索引 位 。 这 12 位 恰好 符合 虚拟 地 址 的 
VPO 部 分 ， 这 绝 不 是 偶然 ! 当 CPU 需要 翻译 一 个 虚拟 地 址 时 ， 它 就 发 送 VPN 到 MMU， 发 送 
VPO 到 Ll 高速 缓存 。 当 MMU 向 TLB 请 求 一 个 页 表 条 目 时 ，L1 高 速 缓存 正 忙 着 利用 VPO 位 
查找 相应 的 组 ， 并 读 出 这 个 组 里 的 八 个 标记 和 相应 的 数据 字 。 当 MMU 从 TLB 得 到 PPN 时 ， 缓 
存 已 经 准备 好 试 着 把 这 个 PPN 与 这 八 个 标记 中 的 一 个 进行 匹配 了 。 


9.7.2 ”Linux 虚拟 存储 器 系统 

一 个 虚拟 存储 器 系统 要 求 硬件 和 内 核 软件 之 间 的 紧密 协作 。 版 本 与 版 本 之 间 细 节 都 不 尽 相 
同 ， 对 此 完整 的 阐释 超出 了 我 们 讨论 的 范围 。 但 是 ， 在 这 一 小 节 中 我 们 的 目标 是 对 Linux 的 虚拟 
存储 器 系统 做 一 个 描述 ， 使 你 能 够 大 致 了 解 一 个 实际 的 操作 系统 是 如 何 组 织 虚 拟 存储 器 ， 以 及 如 
何 处 理 缺 页 的 。 

Linux 为 每 个 进程 维持 了 一 个 单独 的 虚拟 地 址 空间 ， 形 式 如 图 9-26 所 示 。 我 们 已 经 多 次 看 到 
过 这 幅 图 了 ， 包 括 它 那 些 熟悉 的 代码 、 数 据 、 堆 、 共 享 库 以 及 栈 段 。 既 然 理 解 了 地 址 翻译 ， 我 们 
就 能 够 填 人 更 多 的 关于 内 核 虚 拟 存 储 器 的 细节 了 ， 这 部 分 虚拟 存储 器 位 于 用 户 栈 之 上 。 

内 核 虚 拟 存储 器 包含 内 核 中 的 
代码 和 数据 结构 。 内 核 虚拟 存储 器 ee 与 进程 相关 的 数据 结构 
的 某 些 区 域 被 映射 到 所 有 进程 共享 部 不 相同 ”| 例如 ， 页 表 、tesk 和 和 
的 物理 页 面 。 例如， 每 个 进程 共享 PO 


内 核 的 代码 和 全 局 数据 结构 。 有 趣 内 核 虚 拟 存 储 器 
的 是 ，Linux 也 将 一 组 连续 的 虚拟 对 每 个 进程 

页 面 ( 大 小 等 于 系统 中 DRAM 的 总 a 内 核 代码 和 数据 

量 ) 映射 到 相应 的 一 组 连续 的 物理 

页 面 。 这 就 为 内 核 提供 了 一 种 便利 “i 

的 方法 来 访问 物理 存储 器 中 任何 特 、 


定 的 位 置 ， 例 如 ， 当 它 需 要 访问 页 
表 ， 或 在 一 些 设备 上 执行 存储 器 映 
射 的 VO 操作， 而 这 些 设备 被 映射 


2 。 、 进 程 虚 拟 存储 器 
到 特定 的 物理 存储 器 位 置 时 。 fe 
内 核 虚拟 存储 器 的 其 他 区 域 包 (通过 e110c 分 配 的 ) 
含 每 个 进程 都 不 相同 的 数据 。 例 未 初始 化 的 数据 ( .bss ) | 


已 初始 化 数据 ( .data ) 
如 ， 页 表 、 内 核 在 进程 的 上 下 文 0x08048000(32) _ | 时 ( i 
中 执行 代码 时 使 用 的 栈 ， 以 及 记 ox40000000(64) 国人 ， ， 


录 虚 拟 地 址 空间 当前 组 织 的 各 种 
数据 结构 。 图 9-26 ”一 个 Linux 进程 的 虚拟 存储 器 

1. Linux 虚拟 存储 器 区 域 

Linux 将 虚拟 存储 器 组 织 成 一 些 区 域 (也 叫做 段 ) 的 集合 。 一 个 区 域 (area) 就 是 已 经 存在 
着 的 (已 分 配 的 ) 虚拟 存储 器 的 连续 片 (chunk)， 这 些 页 是 以 某 种 方式 相关 联 的 。 例 如 ， 代 码 
段 、 数 据 段 、 堆 、 共 享 库 段 ， 以 及 用 户 栈 都 是 不 同 的 区 域 。 每 个 存在 的 虚拟 页 面 都 保存 在 某 个 区 
域 中 ， 而 不 属于 某 个 区 域 的 虚拟 页 是 不 存在 的 ， 并 且 不 能 被 进程 引用 。 区 域 的 概念 很 重要 ， 因 为 
它 允 许 虚拟 地 址 空间 有 间隙 。 内 核 不 用 记录 那些 不 存在 的 虚拟 页 ， 而 这 样 的 页 也 不 占用 存储 器 、 
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磁盘 或 者 内 核 本 身 的 任何 额外 资源 。 z 

图 9-27 强调 了 记录 一 个 进程 中 虚拟 存储 器 区 域 的 内 核 数 据 结构 。 内 核 为 系统 中 的 每 个 进程 
维护 一 个 单独 的 任务 结构 〈 源 代码 中 的 task_ struct)。 任 务 结构 中 的 元 素 包 含 或 者 指向 内 核 
运行 该 进程 所 需要 的 所 有 信息 (例如 ，PID、 指 向 用 户 栈 的 指针 、 可 执行 目标 文件 的 名 字 以 及 程 
序 计数 器 )。 


进程 虚拟 存储 器 


vm area _ ER , 
task struct mm struct 0 
mm | dr vm start 
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task_struct 中 的 一 个 条 目 指向 mm_struct， 它 描述 了 虚拟 存储 器 的 当前 状态 。 我 们 感 
兴趣 的 两 个 字段 是 pgd 和 mmap， 其 中 pgd 指向 第 一 级 页 表 (页 全 局 目录 ) 的 基 址 ， 而 mmap 
指 问 一 个 vm_area_structs (区 域 结构 ) 的 链表 ， 其 中 每 个 vm area structs 都 描述 了 当 
前 虚拟 地 址 空间 的 一 个 区 域 (area)。 当 内 核 运 行 这 个 进程 时 ， 它 就 将 pgd 存放 在 CR3 控制 寄存 
器 中 。 

为 了 我 们 的 目的 ， 一 个 具体 区 域 的 区 域 结构 包含 下 面 的 字段 : 

“vm_start : 指向 这 个 区 域 的 起 始 处 。 

“vm_end : 指 回 这 个 区 域 的 结束 处 。 

“vm_prot : 描述 这 个 区 域内 包含 的 所 有 页 的 读 写 许可 权限 。 

。vm_flags : 描述 这 个 区 域内 的 页 面 是 与 其 他 进程 共享 的 ， 还 是 这 个 进程 私有 的 (还 描述 了 

其 他 一 些 信息 )。 

“vm_next : 指 疝 链表 中 下 一 个 区 域 结构 。 

2. Linux 缺 页 异常 处 理 

假设 MMU 在 试图 翻译 某 个 虚拟 地 址 A 时 ， 触 发 了 一 个 缺 页 。 这 个 异常 导致 控制 转移 到 内 
核 的 缺 页 处 理 程序 ， 处 理 程序 随后 就 执行 下 面 的 步骤 : 

1) 虚拟 地 址 A 是 合法 的 吗 ? 换 句 话说 ，A 在 某 个 区 域 结构 定义 的 区 域内 吗 ? 为 了 回答 这 个 
问题 ， 缺 页 处 理 程 序 搜索 区 域 结构 的 链表 ， 把 A 和 每 个 区 域 结构 中 的 vm_start 和 vm end 做 
比较 。 如 果 这 个 指令 是 不 合法 的 ， 那 么 缺 页 处 理 程序 就 触发 一 个 段 错误 ， 从 而 终止 这 个 进程 。 这 
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种 情况 在 图 9-28 中 标识 为 “1”。 

因为 一 个 进程 可 以 创建 任意 数量 的 新 虚拟 存储 器 区 域 ( 使 用 在 下 一 节 中 描述 的 mmap 函数 )， 
所 以 顺序 搜索 区 域 结构 的 链表 花 销 可 能 会 很 大 。 因 此 在 实际 中 ，Linux 使 用 某 些 我 们 没有 显示 出 
来 的 字段 ，Linux 在 链表 中 构建 了 一 棵 树 ， 并 在 这 棵 树 上 进行 查找 。 

2) 试图 进行 的 存储 器 访问 是 否 合法 ? 换 名 话说， 进程 是 否 有 读 、 写 或 者 执行 这 个 区 域内 页 
面 的 权限 ? 例如 ， 这 个 缺 页 是 不 是 由 一 条 试图 对 这 个 代码 段 里 的 只 读 页 面 进行 写 操 作 的 存储 指令 
造成 的 ? 这 个 缺 页 是 不 是 因为 一 个 运行 在 用 户 模 式 中 的 进程 试图 从 内 核 虚 拟 存储 器 中 读 取 字 造成 
的 ? 如 果 试 图 进行 的 访问 是 不 合法 的 ， 那 么 缺 页 处 理 程序 会 触发 一 个 保护 异常 ， 从 而 终止 这 个 进 
程 。 这 种 情况 在 图 9-28 中 标识 为 “2”。 

3) 此 刻 ， 内 核 知道 了 这 个 缺 页 是 由 于 对 合法 的 虚拟 地 址 进行 合法 的 操作 造成 的 。 它 是 这 样 
来 处 理 这 个 缺 页 的 : 选择 一 个 牺牲 页 面 ， 如 果 这 个 牺牲 页 面 被 修改 过 ， 那 么 就 将 它 交 换 出 去 ， 换 
和 新 的 页 面 并 更 新 页 表 。 当 缺 页 处 理 程序 返回 时 ，CPU 重新 启动 引起 缺 页 的 指令 ， 这 条 指令 将 
再 次 发 送 A 到 MMU。 这 次 ，MMU 就 能 正常 地 翻译 A， 而 不 会 再 产生 缺 页 中 断 了 。 


进程 虚拟 存储 器 


vm area struct 










rr 
Ne 


段 错 误 : 
访问 一 个 不 存在 的 页 面 


正常 缺 页 


保护 异常 : 
例如 ， 违 反 许可 ， 
写 一 个 只 读 的 页 面 


图 9-28 ”Linux 缺 页 处 理 


9.8 存储 器 映射 


Linux( 以 及 其 他 一 些 形式 的 Unix) 通过 将 一 个 虚拟 存储 器 区 域 与 一 个 磁盘 上 的 对 象 
(object) 关联 起 来 ， 以 初始 化 这 个 虚拟 存储 器 区 域 的 内 容 ， 这 个 过 程 称 为 存储 器 映射 (memory 
mapping)。 虚 拟 存储 器 区 域 可 以 映射 到 两 种 类 型 的 对 象 中 的 一 种 : 

1) Unix 文件 系统 中 的 普通 文件 : 一 个 区 域 可 以 映射 到 一 个 普通 磁盘 文件 的 连续 部 分 ， 例 如 
一 个 可 执行 目标 文件 。 文 件 区 〈section) 被 分 成 页 大 小 的 片 ， 每 一 片 包含 一 个 虚拟 页 面 的 初始 内 
容 。 因 为 按 需 进行 页 面 调度 ， 所 以 这 些 虚拟 页 面 没有 实际 交换 进入 物理 存储 器 ， 直 到 CPU 第 一 
次 引用 到 页 面 ( 即 发 射 一 个 虚拟 地 址 ， 落 在 地 址 空间 这 个 页 面 的 范围 之 内 )。 如 果 区 域 比 文件 区 
要 大 ， 那 么 就 用 零 来 填充 这 个 区 域 的 余下 部 分 。 

”2) 匿名 文件 : 一 个 区 域 也 可 以 映射 到 一 个 匿名 文件 ， 匿 名 文件 是 由 内 核 创建 的 ， 包 含 的 全 
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是 二 进 制 零 。CPU 第 一 次 引用 这 样 一 个 区 域内 的 虚拟 页 面 时 ， 内 核 就 在 物理 存储 器 中 找到 一 个 
合适 的 牺牲 页 面 ， 如 果 该 页 面 被 修改 过 ， 就 将 这 个 页 面 换 出 来 ， 用 二 进 制 零 覆盖 牺牲 页 面 并 更 
新 页 表 ， 将 这 个 页 面 标记 为 是 驻 留 在 存储 器 中 的 。 注 意 在 磁盘 和 存储 器 之 间 并 没有 实际 的 数据 
传送 。 因 为 这 个 原因 ， 映 射 到 匿名 文件 的 区 域 中 的 页 面 有 时 也 叫做 请 求 二 进 制 替 的 页 (demand- 
Zero page )。 

无 论 在 哪 种 情况 下 ， 一 旦 一 个 虚拟 页 面 被 初始 化 了 ， 它 就 在 一 个 由 内 核 维护 的 专门 的 交 搁 
文件 (swap file) 之 间 换 来 换 去 。 交 换文 件 也 叫做 交换 空间 (swap space) 或 者 交换 区 域 (swap 
area)。 需 要 意识 到 的 很 重要 的 一 点 是 ， 在 任何 时 刻 ， 交 换 空 间 都 限制 着 当前 运行 着 的 进程 能 够 
分 配 的 虚拟 页 面 的 总 数 。 

9.8.1 再 看 共享 对 象 

存储 器 映射 的 概念 来 源 于 一 个 聪明 的 发 现 : 如 果 虚 拟 存储 器 系统 可 以 集成 到 传统 的 文件 系统 
中 ， 那 么 就 能 提供 一 种 简单 而 高 效 的 把 程序 和 数据 加 载 到 存储 器 中 的 方法 。 

正如 我 们 已 经 看 到 的 ， 进 程 这 一 抽象 能 够 为 每 个 进程 提供 自己 私有 的 虚拟 地 址 空间 ， 可 以 免 
受 其 他 进程 的 错误 读 写 。 不 过 ， 许 多 进程 有 同样 的 只 读 文本 区 域 。 例 如 ， 每 个 运行 Unix 外 壳 程 
序 tcsh 的 进程 都 有 相同 的 文本 区 域 。 而 且 ， 许 多 程序 需要 访问 只 读 运行 时 库 代 码 的 相同 拷贝 。 
例如 ， 每 个 C 程序 都 需要 来 和 目标 准 C 库 的 诸如 printf 这 样 的 函数 。 那 么 ， 如 果 每 个 进程 都 在 
物理 存储 器 中 保持 这 些 常 用 代码 的 复制 拷贝 ， 那 就 是 极端 的 浪费 了 。 幸 运 的 是 ， 存 储 器 映射 给 我 
们 提供 了 一 种 清晰 的 机 制 ， 用 来 控制 多 个 进程 如 何 共享 对 象 。 

一 个 对 象 可 以 被 映射 到 虚拟 存储 器 的 一 个 区 域 ， 要 么 作为 共享 对 象 ， 要 人 么 作为 私有 对 象 。 如 
果 一 个 进程 将 一 个 共享 对 象 映 射 到 它 的 虚拟 地 址 空间 的 一 个 区 域内 ， 那 么 这 个 进程 对 这 个 区 域 的 
任何 写 操 作 ， 对 于 那些 也 把 这 个 共享 对 象 映射 到 它们 虚拟 存储 器 的 其 他 进程 而 言 也 是 可 见 的 。 而 
且 ， 这 些 变化 也 会 反映 在 磁盘 上 的 原始 对 象 中 。 

另 一 方面 ， 对 一 个 映射 到 私有 对 象 的 区 域 做 的 改变 ， 对 于 其 他 进程 来 说 是 不 可 见 的 ， 并 且 进 
程 对 这 个 区 域 所 做 的 任何 写 操作 都 不 会 反映 在 磁盘 上 的 对 象 中 。 一 个 映射 到 共享 对 象 的 虚拟 存储 
器 区 域 叫做 共享 区 域 。 类 似 地 ， 也 有 私有 区 域 。 

假设 进程 1 将 一 个 共享 对 象 映 射 到 它 的 虚拟 存储 器 的 一 个 区 域 中 ， 如 图 9-29a 所 示 。 现 在 假 
设 进 程 2 将 同一 个 共享 对 象 映射 到 它 的 地 址 空间 〈 并 不 一 定 要 和 进程 1 在 相同 的 虚拟 地 址 处 ， 如 
9-29b 所 示 )。 


进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 存储 器 存储 器 虚拟 存储 器 虚拟 存储 器 存储 器 虚拟 存储 器 








机 
共享 对 象 
。) 进程 1 映射 了 共享 对 象 之 后 b ) 进程 :映射 了 同一 个 共享 对 象 之 后 

图 9-29 一个 共享 对 象 注意 ， 物 理 页 面 不 一 定 是 连续 的 。) 
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因为 每 个 对 象 都 有 一 个 唯一 的 文件 名 ， 内 核 可 以 迅速 地 判定 进程 1 已 经 映射 了 这 个 对 象 ， 而 
且 可 以 使 进程 2 中 的 页 表 条 目 指向 相应 的 物理 页 面 。 关 键 点 在 于 即使 对 象 被 映射 到 了 多 个 共享 区 
域 ， 物 理 存储 器 中 也 只 需要 存放 共享 对 象 的 一 个 拷贝 。 为 了 方便 ， 我 们 将 物理 页 面 显 示 为 连续 
的 ， 但 是 在 一 般 情况 下 当然 不 是 这 样 的 。 

私有 对 象 是 使 用 一 种 叫做 写 时 拷贝 〈copy-on-write) 的 巧妙 技术 被 映射 到 虚拟 存储 器 中 的 。 
一 个 私有 对 象 开始 生命 周期 的 方式 基本 上 与 共享 对 象 的 一 样 ， 在 物理 存储 器 中 只 保存 有 私有 对 象 
的 一 份 拷贝 。 比 如 ， 图 9-30a 展示 了 一 种 情况 ， 其 中 两 个 进程 将 一 个 私有 对 象 映射 到 它们 虚拟 存 
储 器 的 不 同 区 域 ， 但 是 共享 这 个 对 象 同一 个 物理 拷贝 。 对 于 每 个 映射 私有 对 象 的 进程 ， 相 应 私有 
区 域 的 页 表 条 目 都 被 标记 为 只 读 ， 并 且 区 域 结 构 被 标记 为 私有 的 写 时 拷贝 。 只 要 没有 进程 试图 写 
它 目 己 的 私有 区 域 ， 它 们 就 可 以 继续 共享 物理 存储 器 中 对 象 的 一 个 单独 拷贝 。 然 而 ， 只 要 有 一 个 
进程 试图 写 私 有 区 域内 的 某 个 页 面 ， 那 么 这 个 写 操作 就 会 触发 一 个 保护 故障 。 

当 故 障 处 理 程序 注意 到 保护 异常 是 由 于 进程 试图 号 私有 的 写 时 拷贝 区 域 中 的 一 个 页 面 而 引起 
的 ， 它 就 会 在 物理 存储 器 中 创建 这 个 页 面 的 一 个 新 拷贝 ， 更 新 页 表 条 目 指向 这 个 新 的 拷贝 ， 然 后 
恢复 这 个 页 面 的 可 写 权限 ， 如 图 9-30b 所 示 。 当 故障 处 理 程序 返回 时 ，CPU 重新 执行 这 个 写 操 
作 ， 现 在 在 新 创建 的 页 面 上 这 个 写 操作 就 可 以 正常 执行 了 。 

通过 延迟 私有 对 象 中 的 拷贝 直到 最 后 可 能 的 时 刻 ， 写 时 拷贝 最 充分 地 使 用 了 稀有 的 物理 存 
储 器 。 : I : 


进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 存储 器 存储 器 虚拟 存储 器 虚拟 存储 器 存储 器 虚拟 存储 器 


写 私 有 的 写 
时 拷贝 的 页 





私有 的 写 时 拷贝 对 银 私有 的 写 时 拷贝 对 象 
a ) 两 个 进程 都 映射 了 私有 的 写 时 拷贝 对 象 之 后 b ) 进程 2 写 了 私有 区 域 中 的 一 个 页 之 后 


”图 9-30 一 个 私有 的 写 时 拷贝 对 象 


9.8.2 再 看 fork 函数 

既然 我 们 理解 了 虚拟 存储 器 和 存储 器 映射 ， 那么 我 们 可 以 清晰 地 知道 fork 函数 是 如 何 创建 
一 个 带 有 自己 独立 虚拟 地 址 空间 的 新 进程 的 。 : 

当 fork 函数 被 当前 进程 调用 时 ， 内 核 为 新 进程 创建 各 种 数据 结构 ， 并 分 配给 它 一 个 唯一 的 
PID。 为 了 给 这 个 新 进程 创建 虚拟 存储 器 ， 它 创建 了 当前 进程 的 mm_struct、 区 域 结构 和 页 表 
的 原样 拷贝 。 它 将 两 个 进程 中 的 每 个 页 面 都 标记 为 只 读 ， 并 将 两 个 进程 中 的 每 个 区 域 结构 都 标记 
为 私有 的 写 时 拷贝 。 

当 fork 在 新 进程 中 返回 时 ， 新 进程 现在 的 虚拟 存储 器 刚好 和 调用 fork 时 存在 的 虚拟 存储 
器 相同 。 当 这 两 个 进程 中 的 任 一 个 后 来 进行 写 操 作 时 ， 写 时 拷贝 机 制 就 会 创建 新 页 面 ， 因 此 ， 也 
就 为 每 个 进程 保持 了 私有 地 址 空 = 间 的 抽象 概念 。 z 
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9.8.3 ”再 看 execve 函数 

虚拟 存储 器 和 存储 器 映射 在 将 程序 加 载 到 存储 器 的 过 程 中 也 扮演 着 关键 的 角色 。 既 然 已 经 理 
解 了 这 些 概念 ， 我 们 就 能 够 理解 execve 了 葡 数 实际 上 是 如 何 加 载 和 执行 程序 的 。 假 设 运行 在 当 
前 进程 中 的 程序 执行 了 如 下 的 调用 : 


Execve("a.out", NULL, NULL). 


正如 在 第 8 章 中 学 到 的 ，execve 函数 在 当前 进程 中 加 载 并 运行 包含 在 可 执行 目标 文件 a.out 
中 的 程序 ， 用 a.out 程序 有 效 地 蔡 代 了 当前 程序 。 加 载 并 运行 a .out 需要 以 下 几 个 步骤 : 
* 删除 已 存在 的 用 户 区 域 。 删 除 当 前 进程 虚拟 地 址 的 用 户 部 分 中 的 已 存在 的 区 域 结构 。 
。 映 射 私 有 区 域 。 为 新 程序 的 文本 、 数 据 、bss 和 栈 区 域 创建 新 的 区 域 结构 。 所 有 这 些 新 的 
区 域 都 是 私有 的 、 写 时 拷贝 的 。 文 本 和 数据 区 域 被 映射 为 a.out 文件 中 的 文本 和 数据 区 。 
bss 区 域 是 请 求 二 进 制 零 的 ， 映 射 到 匿名 文件 ， 其 大 小 包含 在 a.out 中 。 栈 和 堆 区 域 也 是 
请 求 二 进 制 零 的 ， 初 始 长 度 为 零 。 图 9-31 概括 了 私有 区 域 的 不 同 映射 。 
。 映射 共享 区 域 。 如 果 a .out 程序 与 共享 对 象 ( 或 目标 ) 链接 ， 比 如 标准 C 库 1ibc.so， 那 
么 这 些 对 和 象 都 是 动态 链接 到 这 个 程序 的 ， 然 后 再 映射 到 用 户 虚拟 地 址 空间 中 的 共享 区 域内 。 
。 设置 程序 计数 器 (PC)。execve 做 的 最 后 一 件 事 情 就 是 设置 当前 进程 上 下 文中 的 程序 计 
数 器 ， 使 之 指 回 文 本 区 域 的 和 人口 点 。 
下 一 次 调度 这 个 进程 时 ， 它 将 从 这 个 入 口 点 开始 执行 。Linux 将 根据 需要 换 入 代码 和 数据 页 面 


}》 私 有 的 ,请求 二 进 制 零 的 


en | 共享 的 ,文件 提供 的 


运行 时 
(通过 malloc 分 配 的 ) 
未 初始 化 的 数据 ( .bss ) | } 私有 的 ， 请 求 二 进 制 堆 的 
Er 


名 


图 9-31 加 载 器 是 如 何 映射 用 户 地 址 空间 的 区 域 的 


9.8.4 使 用 mmap 函数 的 用 户 级 存储 器 映射 
Unix 进程 可 以 使 用 mmap 函数 来 创建 新 的 虚拟 存储 器 区 域 ， 并 将 对 象 映射 到 这 些 区 域 中 。 


人 
S | Wk 





#include <unistd.h> 
#include <sys/mman.h> 


void *mmap(void *start, size_t length, int prot, int flags, 
int fd, off_t offset) ; 


返回 : 若 成 功 时 则 为 指向 映射 区 域 的 指针 ， 若 出 错 则 为 MAP FAILED (1)。 
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mmap 函数 要 求 内 核 创建 一 个 新 的 虚拟 存储 器 区 域 ， 最 好 是 从 地 址 start 开始 的 一 个 区 域 ， 
并 将 文件 描述 符 fd 指定 的 对 和 象 的 一 个 连续 的 片 (chunk) 映射 到 这 个 新 的 区 域 。 连 续 的 对 象 片 
大 小 为 length 字 节 ， 从 距 文 件 开 始 处 偏 移 量 为 offset 字 节 的 地 方 开始 。start 地 址 仅仅 是 
一 个 上 暗示， 通常 被 定义 为 NULL。 为 了 我 们 的 目的 ， 我 们 总 是 假设 起 始 地 址 为 NULL。 图 9-32 
描述 了 这 些 参数 的 意义 。 


length ( 字 节 ) | 


offset 


( 字 节 ) 





0 


文件 描述 符 fa 指定 进程 虚拟 存储 器 
的 磁盘 文件 


图 9-32 ”mmap 参数 的 可 视 化 解释 


参数 prot 包含 描述 新 映射 的 虚拟 存储 带 区 域 的 访 问 权 限 位 (在 相应 区 域 结构 中 的 vm_ 
prot 位 )。 
。 PROT_EXEC : 这 个 区 域内 的 页 面 由 可 以 被 CPU 执行 的 指令 组 成 。 
。PROT_READ : 这 个 区 域内 的 页 面 可 读 。 
。PROT_WRITE : 这 个 区 域内 的 页 面 可 写 。 
“。PROT NONE : 这 个 区 域内 的 页 面 不 能 被 访问 。 
参数 flags 由 描述 被 映射 对 象 类 型 的 位 组 成 。 如 果 设 置 了 MAP_ANON 标记 位 ， 那 么 被 映射 
的 对 象 就 是 一 个 匿名 对 象 ， 而 相应 的 虚拟 页 面 是 请 求 二 进 制 零 的 。MAP_PRIVATE 表示 被 映射 的 
对 象 是 一 个 私有 的 、 写 时 拷贝 的 对 象 ， 而 MAP_SHARED 表示 是 一 个 共享 对 象 。 例 如 


bufp = Mmap(-1，size，PROT_READ ，MAP_PRIVATE1MAP_ANON，0，0) ; 


让 内 核 创建 一 个 新 的 包含 size 字 节 的 只 读 、 私 有 、 请 求 二 进 制 零 的 虚拟 存储 器 区 域 。 如 果 调 用 
成 功 ， 那 么 bufp 包含 新 区 域 的 地 址 。 
munmap 函数 删除 虚拟 存储 器 的 区 域 : 


#include <unistd.h> 
#include <sys/mman.h> 


int munmap(void *start, size_t length); 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1 。 


munmap 函数 删除 从 虚拟 地 址 start 开始 的 ， 由 接 下 来 length 字 节 组 成 的 区 域 。 接 下 来 对 已 

删除 区 域 的 引用 会 导致 段 销 误 。 

让 练习 题 9.5 编写 一 个 C 程序 mmapcopy.c， 使 用 mmap 将 一 个 任意 大 小 的 磁盘 文件 拷贝 到 stdout。 
输入 文件 的 名 字 必 须 作 为 一 个 命令 行 参数 来 传递 。 
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9.9 动态 存储 器 分 配 


虽然 可 以 使 用 低级 的 mmap 和 munmap 函数 来 创建 和 删除 虚拟 存储 器 的 区 域 ， 但 是 C 程 
序 员 还 是 会 觉得 当 运 行 时 需要 额外 虚拟 存储 器 时 ， 用 动态 存储 器 分 配器 (dynamic memory 
allocator) 更 方便 ， 也 有 更 好 的 可 移植 性 。 

动态 存储 器 分 配器 维护 着 一 个 进程 的 虚拟 存储 器 区 域 ， 称 为 堆 (heap) 〈 见 图 9-33)。 系 统 之 
间 细 节 不 同 ， 但 是 不 失 通用 性 ， 我 们 假设 堆 是 一 个 请 求 二 进 制 零 的 区 域 ， 它 紧 接 在 未 初始 化 的 
bss 区 域 后 开始 ， 并 向 上 生长 〈 向 更 高 的 地 址 )。 对 于 每 个 进程 ， 内 核 维护 着 一 个 变量 brk ( 读 
做 “break”)， 它 指向 堆 的 顶部 。 z 

分 配器 将 堆 视 为 一 组 不 同 大 小 的 块 (block) 的 
集合 来 维护 。 每 个 块 就 是 一 个 连续 的 虚拟 存储 器 片 
(chunk)， 要 么 是 已 分 配 的 ， 要 么 是 空闲 的 。 已 分 配 的 
块 显 式 地 保 留 为 供应 用 程序 使 用 o 空 闲 块 可 用 来 分 配 o° a 2 
空闲 块 保持 空闲 ， 直 到 它 显 式 地 被 应 用 所 分 配 。 一 个 | 共 齐 库 的 存储 器 映射 区 域 






已 分 配 的 块 保持 已 分 配 状 态 ， 直 到 它 被 释放 ， 这 种 释 
放 要 么 是 应 用 程序 显 式 执行 的 ， 要 么 是 存储 器 分 配 右 ， 
目 身 隐 式 执行 的 。 


分 配器 有 两 种 基本 风格 。 两 种 风格 都 要 求 应 用 显 he 
式 地 分 配 块 。 它 们 的 不 同 之 处 在 于 由 哪个 实体 来 负责 
条 放 已 分 机 的 
。 显 式 分 配器 (explicit allocator)， 要 求 应 用 显 式 地 
释放 任何 已 分 配 的 块 。 例 如 ，C 标准 库 提供 一 种 叫 
做 malloc 程序 包 的 显 式 分 配器 。C 程序 通过 调用 要 要 
malloc 函数 来 分 配 一 个 块 ， 并 通过 调用 free 函 0 . 
数 来 释放 一 个 块 。C++ 中 的 new 和 delete 操作 符 图 9-33 挫 
与 C 中 的 malloc 和 free 相当 。 
。 隐 式 分 配器 (implicit allocator)， 男 一 方面 ， 要 求 分 配器 检测 一 个 已 分 配 块 何 时 不 再 被 程序 
所 使 用 ， 那 么 就 释放 这 个 块 。 隐 式 分 配器 也 叫做 垃圾 收集 器 (garbage collector)， 而 自动 释 
放 未 使 用 的 已 分 配 的 块 的 过 程 叫做 垃圾 收集 (garbage collection)。 例 如 ， 像 Lisp、ML 以 
及 Java 之 类 的 高 级 语言 就 依赖 垃圾 收集 来 释放 已 分 配 的 块 。 

本 节 剩 下 的 部 分 讨论 的 是 显 式 分 配器 的 设计 和 实现 。 我 们 将 在 9.10 节 中 讨论 隐 式 分 配器 。 
为 了 更 具体 ， 我 们 的 讨论 集中 于 管理 堆 存 储 器 的 分 配器 。 然 而 ， 应 该 明白 存储 器 分 配 是 一 个 普遍 
的 概念 ， 可 以 出 现在 各 种 上 下 文中 。 例 如 ， 图 形 处 理 密集 的 应 用 程序 就 经 常 使 用 标准 分 配器 来 要 
求 获 得 一 大 块 虚拟 存储 器 ， 然 后 使 用 与 应 用 相关 的 分 配器 来 管理 块 中 的 存储 器 ， 以 支持 图 形 节点 
的 创建 和 销毁 。 

9.9.1 malloc 和 free 函数 

C 标准 库 提 供 了 一 个 称 为 malloc 程序 包 的 显 式 分 配器 。 程 序 通过 调用 mallLoc 函数 来 从 

堆 中 分 配 块 。 


#include <stdlib.h> 


void *malloc(size_t size); 





返回 ; 车 成功 则 为 指针 ， 车 出 错 则 为 NULL。 
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malloc 函数 返回 一 个 指针 ， 指 向 大 小 为 至 少 size 字 节 的 存储 器 块 ， 这 个 块 会 为 可 能 包含 
在 这 个 块 内 的 任何 数据 对 象 类 型 做 对 齐 。 在 我 们 熟悉 的 Unix 系统 上 ，malloc 返回 一 个 8 字 节 
( 双 字 ) 边界 对 齐 的 块 。 


一 个 字 有 多 大 ? 
回想 一 下 在 第 3 章 中 我 们 对 机 器 代码 的 讨论 ，Intel 将 4 字 节 对 象 称 为 双 字 。 然 而 ， 在 本 节 
中 ， 我 们 会 假设 字 是 4 字 节 的 对 象 ， 而 双 字 是 8 字 节 的 对 象 ， 这 和 传统 术语 是 一 致 的 。 


如 果 malloc 遇 到 问题 (例如 ， 程 序 要 求 的 存储 器 块 比 可 用 的 虚拟 存储 器 还 要 大 )， 那 么 它 
就 返回 NULL， 并 设置 errno。malloc 不 初始 化 它 返 回 的 存储 器 。 那 些 想 要 已 初始 化 的 动态 存 
储 器 的 应 用 程序 可 以 使 用 calloc，calloc 是 一 个 基于 malloc 的 瘦 包 装 涌 数 ， 它 将 分 配 的 存 
储 器 初始 化 为 零 。 想 要 改变 一 个 以 前 已 分 配 块 的 大 小 ， 可 以 使 用 realloc 函数 。 

动态 存储 器 分 配器 ， 例 如 malloc， 可 以 通过 使 用 mmap 和 munmap 函数 ， 显 式 地 分 配 和 条 
放 堆 存储 器 ， 或 者 还 可 以 使 用 sbrk 函数 : 


#include <unistd.h> 


void *sbrk(intptr_t incr); 


返回 , 车 成 功 则 为 旧 的 brk 指针 ， 若 出 错 则 为 1。 





sbrk 函数 通过 将 内 核 的 brk 指针 增加 incr 来 扩展 和 收缩 堆 。 如 果 成 功 ， 它 就 返回 brk 的 旧 
值 ， 否 则 ， 它 就 返回 -1， 并 将 errno 设置 为 ENOMEM。 如 果 incr 为 零 ， 那 么 sbrk 就 返回 
brk 的 当前 值 。 用 一 个 为 负 的 incr 来 调用 sbrk 是 合法 的 ， 而 且 很 巧妙 ， 因 为 返回 值 (brk 的 
旧 值 ) 指向 距 新 堆 顶 向 上 abs (incr) 字 节 处 。 

程序 是 通过 调用 free 函数 来 释放 已 分 配 的 堆 块 。 


#include <stdlib.h> 


void free(void *ptr); 





ptr 参数 必须 指向 一 个 从 malloc、calloc 或 者 realloc 获得 的 已 分 配 块 的 起 始 位 置 。 如 果 
不 是 ， 那 么 free 的 行为 就 是 未 定义 的 。 更 糟 的 是 ， 既 然 它 什么 都 不 返回 ，free 就 不 会 告诉 应 
用 出 现 了 错误 。 就 像 我 们 将 在 9.11 节 里 看 到 的 ， 这 会 产生 一 些 令 人 迷惑 的 运行 时 错误 。 
图 9-34 展示 了 一 个 malloc 和 free 的 实现 是 如 何 管理 一 个 C 程 序 的 16 字 的 (非常) 小 的 
堆 的 。 每 个 方 框 代 表 了 一 个 4 字 节 的 字 。 粗 线 标 出 的 矩形 对 应 于 已 分 配 块 (有 阴影 的 ) 和 空闲 块 
(无 阴影 的 )。 初 始 时 ， 堆 是 由 一 个 大 小 为 16 个 字 的 、 双 字 对 齐 的、 空闲 块 组 成 的 。 
。 图 9-34a : 程序 请 求 一 个 4 字 的 块 。 malloc 的 响应 是 : 从 空闲 块 的 前 部 切 出 一 个 4 字 的 
块 ， 并 返回 一 个 指向 这 个 块 的 第 一 字 的 指针 。 

。 图 9-34b : 程序 请 求 一 个 5 字 的 块 。malloc 的 响应 是 : 从 空闲 块 的 前 部 分 配 一 个 6 字 的 
块 。 在 本 例 中 , mal1loc 在 块 里 填充 了 一 个 额外 的 字 ， 是 为 了 保持 空闲 块 是 双 字 边界 对 齐 的 。 

。 图 9-34c : 程序 请 求 一 个 6 字 的 块 ， 而 malloc 就 从 空闲 块 的 前 部 切 出 一 个 6 字 的 块 。 

。 图 9-34d : 程序 释放 在 图 9-34b 中 分 配 的 那个 6 字 的 块 。 注 意 ， 在 调用 free 返回 之 后 ， 指 
针 p2 仍然 指向 被 释放 了 的 块 。 应 用 有 责任 在 它 被 一 个 新 的 malloc 调用 重新 初始 化 之 前 
不 再 使 用 p2。 
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* 图 9-34e : 程序 请 求 一 个 2 字 的 块 。 在 这 种 情况 下 ，malloc 分 配 在 前 一 步 中 被 释放 了 的 块 


的 一 部 分 ， 并 返回 一 个 指向 这 个 新 块 的 指针 。 
9.9.2 为 什么 要 使 用 动态 存储 器 分 配 

程序 使 用 动态 存储 器 分 配 的 最 重要 的 原因 
是 经 常 直 到 程序 实际 运行 时 ， 它 们 才 知 道 某 
些 数据 结构 的 大 小 。 例 如 ， 假 设 要 求 我 们 编 
写 一 个 C 程 序 ， 它 读 一 个 nn 个 ASCII 码 整数 
的 链表 ， 每 行 一 个 整数 ， 从 stdin 到 一 个 C 
数组 。 输 入 是 由 整数 n 和 接 下 来 要 读 和 存储 
到 数组 中 的 nn 个 整数 组 成 的 。 最 简单 的 方法 
就 是 用 某 种 硬 编码 的 最 大 数组 大 小 静态 地 定 
义 这 个 数组 : 


#include "csapp.h" 


1 
2 #define MAXN 15213 

3 

4 int array [MAXN]; 

5 

6 int main() 

二 

8 int i, 1n; 

y 

10 scanf ("%d", &n); 

11 if (n > MAXN) 

12 app_error("Input file too big"); 
13 for (i = 0; i < n; i++) 

14 scanf ("%d", &array[il]); 

15 exit (0); 

16 + 


a) pl = malloc(4*sizeof (int)) 


1 2 





be | LTT 


b)p2 = malloc(5*sizeof (int)) 


p1 p2 p3 
4 





| 


Cc) p3 = malloc(6*sizeof (int)) 





8)p4 = malloc(2*sizeof (int)) 


图 9-34 用 malloc 和 free 分配 和 释放 块 。 每 
个 方 框 对 应 于 一 个 字 。 每 个 粗 线 标 出 的 
矩形 对 应 于 一 个 块 。 阴 影 部 分 是 已 分 配 
的 块 。 已 分 配 的 块 的 填充 区 域 是 深 阴 影 
的 。 无 阴影 部 分 是 空闲 块 。 堆 地 址 是 从 
左 往 右 增加 的 


像 这 样 用 硬 编码 的 大 小 来 分 配 数组 通常 不 是 一 种 好 想法 。MAXN 的 值 是 任意 的 ， 与 机 器 上 
可 用 的 虚拟 存储 器 的 实际 数量 没有 关系 。 而 且 ， 如 果 这 个 程序 的 使 用 者 想 读 取 一 个 比 MAXN 大 
的 文件 ， 唯 一 的 办 法 就 是 用 一 个 更 大 的 MAXN 值 来 重新 编译 这 个 程序 。 虽 然 对 于 这 个 简单 的 示 
例 来 说 这 不 成 问题 ， 但 是 硬 编码 数组 界限 的 出 现 对 于 拥有 百 万 行 代码 和 大 量 使 用 者 的 大 型 软件 产 


品 而 言 ， 会 变 成 一 场 维护 的 事 梦 。 


一 种 更 好 的 方法 是 在 运行 时 ， 在 已 知 了 的 值 之 后 ， 动 态 地 分 配 这 个 数组 。 使 用 这 种 方法 ， 
数组 大 小 的 最 大 值 就 只 由 可 用 的 虚拟 存储 器 数量 来 限制 了 。 


#include "csapp.h" 


{ 


] 
2 
3 int main() 
4 
5 int *array, i, n; 


7 scanf("%d", &n); 

8 array = (int *)Malloc(n * .sizeof (int)); 
9 for (i = 0; i < n; i++) 

10 scanf ("%d", &array [i]); 

11 exit (0); 
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动态 存储 器 分 配 是 一 种 有 用 而 重要 的 编程 技术 。 然 而 ， 为 了 正确 而 高 效 地 使 用 分 配器 ， 程 序 
员 需 要 对 它们 是 如 何 工作 的 有 所 了 解 。 我 们 将 在 9.11 节 中 讨论 因为 不 正确 地 使 用 分 配器 所 导致 
的 一 些 可 怕 的 错误 。 

9.9.3 分 配器 的 要 求 和 目标 

显 式 分 配器 必须 在 一 些 相当 严格 的 约束 条 件 下 工作 : 

。 处 理 任意 请 求 序列 。 一 个 应 用 可 以 有 任意 的 分 配 请 求 和 释放 请 求 序列 ， 只 要 满足 约束 条 
件 : 每 个 释放 请 求 必 须 对 应 于 一 个 当前 已 分 配 块 ， 这 个 块 是 由 一 个 以 前 的 分 配 请 求 获得 
的 。 因 此 ， 分 配器 不 可 以 假设 分 配 和 释放 请 求 的 顺序 。 例 如 ， 分 配器 不 能 假设 所 有 的 分 配 
请 求 都 有 相 匹 配 的 释放 请 求 ， 或 者 有 相 匹 配 的 分 配 和 空闲 请 求 是 舱 套 的 。 

“立即 响应 请 求 。 分 配器 必须 立即 啊 应 分 配 请 求 。 因 此 ， 不 允许 分 配器 为 了 提高 性 能 重新 排 
列 或 者 缓冲 请 求 。 

。 只 使 用 堆 。 为 了 使 分 配器 是 可 扩展 的 ， 分 配器 使 用 的 任何 非 标量 数据 结构 都 必须 保存 在 堆 里 。 

。 对 齐 块 (对齐 要 求 )。 分 配器 必须 对 齐 块 ， 使 得 它们 可 以 保存 任何 类 型 的 数据 对 象 。 在 大 
多 数 系统 中 ， 这 意味 着 分 配器 返回 的 块 是 8 字 节 (〈 双 字 ) 边界 对 齐 的 。 

。 不 修改 已 分 配 的 块 。 分 配器 只 能 操作 或 者 改变 空闲 块 。 特 别 是 ， 一 旦 块 被 分 配 了 ， 就 不 允 
许 修改 或 者 移动 它 了 。 因 此 ， 诸 如 压缩 已 分 配 块 这 样 的 技术 是 不 允许 使 用 的 。 

在 这 些 限制 条 件 下 ， 分 配器 的 编写 者 试图 实现 吞吐 率 最 大 化 和 存储 器 使 用 率 最 大 化 ， 而 这 两 
个 性 能 目标 通常 是 相互 冲突 的 。 

“目标 1 : 最 大 化 吞吐 率 。 假 定 n 个 分配 和 释放 请 求 的 某 种 序列 : 

Ro, Ri, ***, Ri, oo R, 
我 们 希望 一 个 分 配器 的 吞吐 率 最 大 化 ， 吞 吐 率 定 义 为 每 个 单位 时 间 里 完成 的 请 求 数 。 例如 ， 如 果 
一 个 分 配器 在 1 秒 钟 内 完成 500 个 分 配 请 求 和 500 个 释放 请 求 ， 那 么 它 的 吞吐 率 就 是 每 秒 1000 
次 操作 。 一 般 而 言 ， 我 们 可 以 通过 使 满足 分 配 和 释放 请 求 的 平均 时 间 最 小 化 来 使 吞吐 率 最 大 化 。 
正如 我 们 会 看 到 的 ， 开 发 一 个 具有 合理 性 能 的 分 配器 并 不 困难 ， 所 谓 合理 性 能 是 指 一 个 分 配 请 求 
的 最 精 运 行 时 间 与 空闲 块 的 数量 呈 线 性 关系 ， 而 一 个 释放 请 求 的 运行 时 间 是 个 常数 。 
。 目 标 2: 最 大 化 存储器 利用 率 。 天 真 的 程序 员 经 常 不 正确 地 假设 虚拟 存储 器 是 一 个 无 限 的 
资源 。 实 际 上 ， 一 个 系统 中 被 所 有 进程 分 配 的 虚拟 存储 器 的 全 部 数量 是 受 磁盘 上 交换 空间 
的 数量 限制 的 。 好 的 程序 员 知 道 虚 拟 存储 器 是 一 个 有 限 的 空间 ， 必 须 高 效 地 使 用 。 对 于 可 
能 被 要 求 分 配 和 释放 大 块 存储 器 的 动态 存储 器 分 配器 来 说 ， 尤 其 如 此 。 

有 很 多 方式 来 描述 一 个 分 配器 使 用 堆 的 效率 如 何 。 在 我 们 的 经 验 中 ， 最 有 用 的 标准 是 峰值 利 

用 率 〈peak utilization)。 像 以 前 一 样 ， 我 们 给 定 n 个 分 配 和 释放 请 求 的 某 种 顺序 
Ro, Ri R,, 及 
如 果 一 个 应 用 程序 请 求 一 个 p 字 节 的 块 ， 那 么 得 到 的 已 分 配 块 的 有 效 载 荷 (payload) 是 p 字 节 。 
在 请 求 R, 完成 之 后 ， 聚 集 有 效 载 荷 (aggregate payload) 表示 为 P.， 为 当前 已 分 配 的 块 的 有 效 载 
荷 之 和 ， 而 及 表示 推 的 当前 的 《单调 非 递 减 的 ) 大 小 。 
那么 ， 前 个 请 求 的 峰值 利用 率 表 示 为 .， 可 以 通过 下 式 得 到 : 
IaXi<k P; 
Ur 
k 

那么 ， 分 配器 的 目标 就 是 在 整个 序列 中 使 峰值 利用 率 U,_| 最 大 化 。 正 如 我 们 将 要 看 到 的 ， 
在 最 大 化 吞吐 率 和 最 大 化 利用 率 之 间 是 互相 牵制 的 。 特 别 是 ， 以 堆 利用 率 为 代价 ， 很 容易 编写 
出 吞吐 率 最 大 化 的 分 配器 。 分 配器 设计 中 一 个 有 趣 的 挑战 就 是 在 两 个 目标 之 间 找 到 一 个 适当 的 
平衡 。 
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放宽 单调 性 假设 
我 们 可 以 通过 让 到 成 为 前 上 个 请 求 的 最 高 峰 ， 从 而 使 得 在 我 们 对 Ui 的 定义 中 放宽 单调 非 递 
减 的 假设 ， 并 且 允 许 堆 增长 和 降低 。 


9.9.4 ”碎片 

造成 堆 利用 率 很 低 的 主要 原因 是 一 种 称 为 碎片 〈fragmentation) 的 现象 ， 当 虽然 有 未 使 用 的 
存储 器 但 不 能 用 来 满足 分 配 请 求 时 ， 就 会 发 生 这 种 现象 。 有 两 种 形式 的 碎片 : 内 部 碎片 〈internal 
fragmentation) 和 外 部 碎片 〈external fragmentation ) 。 

内 部 碎片 是 在 一 个 已 分 配 块 比 有 效 载荷 大 时 发 生 的 。 很 多 原因 都 可 能 造成 这 个 问题 。 例 如 ， 
一 个 分 配器 的 实现 可 能 对 已 分 配 块 强加 一 个 最 小 的 大 小 值 ， 而 这 个 大 小 要 比 某 个 请 求 的 有 效 载荷 
大 。 或 者 ， 就 如 我 们 在 图 9-34b 中 看 到 的 ， 分 配器 可 能 增加 块 大 小 以 满足 对 齐 约束 条 件 。 

内 部 碎片 的 量化 是 简单 明了 的 。 它 就 是 已 分 配 块 大 小 和 它们 的 有 效 载 荷 大 小 之 差 的 和 。 因 
此 ， 在 任意 时 刻 ， 内 部 碎片 的 数量 只 取决 于 以 前 请 求 的 模式 和 分 配器 的 实现 方式 。 

外 部 碎片 是 当空 闲 存 储 器 合计 起 来 足够 满足 一 个 分 配 请 求 ， 但 是 没有 一 个 单独 的 空闲 块 足够 
大 可 以 来 处 理 这 个 请 求 时 发 生 的 。 例 如 ， 如 果 图 9-34e 中 的 请 求 要 求 6 个 字 ， 而 不 是 2 个 字 ， 那 
么 如 果 不 向 内 核 请 求 额外 的 虚拟 存储 器 就 无 法 满足 这 个 请 求 ， 即 使 在 堆 中 仍然 有 6 个 空闲 的 字 。 
问题 的 产生 是 由 于 这 6 个 字 是 分 在 两 个 空闲 块 中 的 。 

外 部 碎片 比 内 部 碎片 的 量化 要 困难 得 多 ， 因 为 它 不 仅 取 决 于 以 前 请 求 的 模式 和 分 配器 的 实现 
方式 ， 还 取决 于 将 来 请 求 的 模式 。 例 如 ， 假 设 在 大 个 请 求 之 后 ， 所 有 空闲 块 的 大 小 都 恰好 是 4 个 
字 。 这 个 扒 会 有 外 部 碎片 吗 ? 答案 取决 于 将 来 请 求 的 模式 。 如 果 将 来 所 有 的 分 配 请 求 都 要 求 小 于 
或 等 于 4 个 字 的 块 ， 那 么 就 不 会 有 外 部 碎片 。 另 一 方面 ， 如 果 有 一 个 或 多 个 请 求 要 求 比 4 个 字 大 
的 块 ， 那 么 这 个 堆 就 会 有 外 部 碎片 。 

因为 外 部 碎片 难以 量化 且 不 可 能 预测 ， 所 以 分 配器 通常 采用 启发 式 策略 来 试图 维持 少量 的 大 
空 闪 块 ， 而 不 是 维持 大 量 的 小 空闲 块 。 

9.9.5 ”实现 问题 

可 以 想象 出 的 最 简单 的 分 配器 会 把 堆 组 织 成 一 个 大 的 字 节 数组 ， 还 有 一 个 指针 p， 初 始 指 向 
这 个 数组 的 第 一 个 字 节 。 为 了 分 配 size 个 字 节 ，malloc 将 p 的 当前 值 保存 在 栈 里 ， 将 p 增加 
size， 并 将 p 的 旧 值 返回 到 调用 函数 。free 只 是 简单 地 返回 到 调用 函数 ， 而 不 做 其 他 任何 事情 。 

这 个 简单 的 分 配器 是 设计 中 的 一 种 极端 情况 。 因 为 每 个 malloc 和 free 只 执行 很 少量 的 指 
令 ， 雁 吐 率 会 极 好 。 然 而 ， 因 为 分 配器 从 不 重复 使 用 任何 块 ， 存 储 器 利用 率 将 极 差 。 一 个 实际 的 
分 配器 要 在 吞吐 率 和 利用 率 之 间 把 握 好 平衡 ， 就 必须 考虑 以 下 几 个 问题 : 

* 空闲 块 组 织 : 我 们 如 何 记录 空闲 块 ? 

“放置 : 我 们 如 何 选择 一 个 合适 的 空闲 块 来 放置 一 个 新 分 配 的 块 ? 

“ 分割 : 在 我 们 将 一 个 新 分 配 的 块 放置 到 某 个 空闲 块 之 后 ， 我 们 如 何 处 理 这 个 空闲 块 中 的 剩 

余部 分 ? 

“合并 : 我 们 如 何 处 理 一 个 刚刚 被 释放 的 块 ? 

本 节 剩 下 的 部 分 将 更 详细 地 讨论 这 些 问题 。 因 为 像 放置 、 分 割 以 及 合并 这 样 的 基本 技术 贯穿 
在 许多 不 同 的 空闲 抉 组 织 中 ， 所 以 我 们 将 在 一 种 叫做 隐 式 空闲 链表 的 简单 空闲 块 组 织 结构 中 来 介 
绍 它们 。 

9.9.6 ” 隐 式 空闲 链表 

任何 实际 的 分 配器 都 需要 一 些 数据 结构 ， 人 允许 它 来 区 别 块 边界 ， 以 及 区 别 已 分 配 块 和 空闲 

块 。 大 多 数 分 配器 将 这 些 信 息 典 入 在 块 本 身 。 一 个 简单 的 方法 如 图 9-35 所 示 。 
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= 1: 已 分 配 的 
cnccam_t ,| ko } 
它 指向 有 效 载荷 的 开始 处 一 oo0s| } 0: 空闲 的 

块 大 小 包括 头 部 ， 

有 效 载荷 
( 只 包括 已 分 配 的 块 ) 有 效 载 荷 和 所 有 的 填充 





图 9-35 一 个 简单 的 堆 块 的 格式 


在 这 种 情况 下 ， 一 个 块 是 由 一 个 字 的 头 部 、 有 效 载 荷 ， 以 及 可 能 的 一 些 额外 的 填充 组 成 的 。 
头 部 编码 了 这 个 块 的 大 小 (包括 头 部 和 所 有 的 填充 )， 以 及 这 个 块 是 已 分 配 的 还 是 空 闪 的 。 如 果 
我 们 强加 一 个 双 字 的 对 齐 约束 条 件 ， 那 么 块 大 小 就 总 是 8 的 倍数 ， 且 块 大 小 的 最 低 3 位 总 是 零 。 
因此 ， 我 们 只 需要 存储 块 大 小 的 29 个 高 位 ， 释 放 剩余 的 3 位 来 编码 其 他 信息 。 在 这 种 情况 下 ， 
我 们 用 其 中 的 最 低位 〈 已 分 配 位 ) 来 指明 这 个 块 是 已 分 配 的 还 是 空闲 的 。 例 如 ， 假 设 我 们 有 一 个 
已 分 配 的 块 ， 大 小 为 24 (0x18) 字 节 。 那 么 它 的 头 部 将 是 


Ox00000018 | 0x1 = 0x00000019 


类 似 地 ， 一 个 块 大 小 为 40 〈0x28) 字 节 的 空闲 块 有 如 下 的 头 部 : 


0x00000028 | 0x0 = 0x00000028 


头 部 后 面 就 是 应 用 调用 malloc 时 请 求 的 有 效 载 苟 。 有 效 载荷 后 面 是 一 片 不 使 用 的 填充 块 ， 
其 大 小 可 以 是 任意 的 。 需 要 填充 有 很 多 原因 ， 比 如 ， 填 充 可 能 是 分 配器 策略 的 一 部 分 ， 用 来 对 付 
外 部 碎片 ， 或 者 也 需要 用 它 来 满足 对 齐 要 求 。 

假设 块 的 格式 如 图 9-35 所 示 ， 我 们 可 以 将 堆 组 织 为 一 个 连续 的 已 分 配 块 和 空闲 块 的 序列 ， 
如 图 9-36 所 示 。 





图 9-36 用 隐 式 空闲 链表 来 组 织 堆 。 阴影 部 分 是 已 分 配 块 。 没有 阴影 的 部 分 是 空闲 块 。 头 部 标记 为 
(大 小 〈 字 节 ) /已 分 配 位 ) 


我 们 称 这 种 结构 为 隐 式 空闲 链表 ， 是 因为 空闲 块 是 通过 头 部 中 的 大 小 字段 隐 舍 地 连接 着 的 。 
分 配器 可 以 通过 遍历 堆 中 所 有 的 块 ， 从 而 间接 地 遍历 整个 空闲 块 的 集合 。 注意 ， 我 们 需要 某 种 特 
殊 标 记 的 结束 块 ， 在 这 个 示例 中 ， 就 是 一 个 设置 了 已 分 配 位 而 大 小 为 零 的 终止 头 部 (terminating 
header)。( 就 像 我 们 将 在 9.9.12 节 中 看 到 的 ， 设 置 已 分 配 位 简化 了 空闲 块 的 合并 。) 

隐 式 空闲 链表 的 优点 是 简单 。 显 著 的 缺点 是 任何 操作 的 开销 ， 例 如 放置 分 配 的 块 ， 要 求 空闲 
链表 的 搜索 与 堆 中 已 分 配 块 和 空闲 块 的 总 数 呈 线性 关系 。 

很 重要 的 一 点 就 是 意识 到 系统 对 齐 要 求 和 分 配器 对 块 格式 的 选择 会 对 分 配器 上 的 最 小 块 大 小 
有 强制 的 要 求 。 没 有 已 分 配 块 或 者 空闲 块 可 以 比 这 个 最 小 值 还 小 。 例 如 ， 如 果 我 们 假设 一 个 双 字 
的 对 齐 要 求 ， 那 么 每 个 块 的 大 小 都 必须 是 双 字 〈8 字 节 ) 的 倍数 。 因 此 ， 图 9-35 中 的 块 格式 就 
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导致 最 小 的 块 大 小 为 两 个 字 : 一 个 字 作 头 ， 另 一 个 字 维持 对 齐 要 求 。 即 使 应 用 只 请 求 单一 字 节 ， 

分 配器 也 仍然 需要 创建 一 个 两 字 的 块 。 

练习 题 9.6 ”确定 下 面 malloc 请 求 序列 产生 的 块 大 小 和 头 部 值 。 假 设 : 1) 分 配器 保持 双 字 对 齐 ， 并 
且 使 用 块 格式 如 图 9-35 中 所 示 的 隐 式 空 六 链表。2) 块 大 小 向 上 含 入 为 最 接近 的 8 字 节 的 倍数 。 


卖 大 小 “十进制 字 忆 |。 均 厌 部 《十 天 进 制 ) 
malo | | 
ml) 









malloc(12) 
malloc(13) | 


9.9.7 ”放置 已 分 配 的 块 

当 一 个 应 用 请 求 一 个 字 市 的 块 时 ， 分 配器 搜索 空 闪 链表， 查找 一 个 足够 大 可 以 放置 所 请 求 
块 的 空闲 块 。 分 配器 执行 这 种 搜索 的 方式 是 由 放置 策略 (placement policy) 确定 的 。 一 些 常见 的 
策略 是 首次 适 配 (first ft)、 下 一 次 适 配 (next fit) 和 最 佳 适 配 (best fit)。 

首次 过 配 从 头 开 始 搜索 空闲 链表 ， 选 择 第 一 个 合适 的 空闲 块 。 下 一 次 造 配 和 首次 适 配 很 相 
似 ， 只 不 过 不 是 从 链表 的 起 始 处 开始 每 次 搜索 ， 而 是 从 上 一 次 查询 结束 的 地 方 开始 。 最 佳 适 配 检 
查 每 个 空闲 块 ， 选 择 适 合 所 需 请 求 大 小 的 最 小 空闲 块 。 

首次 适 配 的 优点 是 它 往往 将 大 的 空闲 块 保留 在 链表 的 后 面 。 缺 点 是 它 往往 在 靠近 链表 起 始 处 
留 下 小 空闲 块 的 “碎片 ”” 这 就 增加 了 对 较 大 块 的 搜索 时 间 。 下 一 次 适 配 是 由 Donald Knuth 作为 
首次 适 配 的 一 种 代替 品 最 早 提出 的 ， 源 于 这 样 一 个 想法 : 如 果 我 们 上 一 次 在 某 个 空闲 块 里 已 经 发 
现 了 一 个 匹配 ， 那 么 很 可 能 下 一 次 我 们 也 能 在 这 个 剩余 块 中 发 现 匹 配 。 下 一 次 适 配 比 首次 适 配 运 
行 起 来 明显 要 快 一 些 ， 尤 其 是 当 链 表 的 前 面 布 满 了 许多 小 的 碎片 时 。 然 而 ， 一 些 研究 表明 ， 下 一 
次 适 配 的 存储 器 利用 率 要 比 首次 适 配 低 得 多 。 研 究 还 表明 最 佳 适 配 比 首次 适 配 和 下 一 次 适 配 的 存 
储 器 利用 率 都 要 高 一 些 。 然 而 ， 在 简单 空闲 链表 组 织 结 构 中 ， 比 如 隐 式 空闲 链表 中 ， 使 用 最 佳 适 
配 的 缺点 是 它 要 求 对 堆 进行 彻 底 的 搜索 。 在 后 面 ， 我 们 将 看 到 更 加 精细 复杂 的 分 离 式 空闲 链表 组 
织 ， 它 接近 于 最 佳 适 配 策略 ， 不 需要 进行 彻底 的 堆 搜 索 。 
9.9.8 分割 空闲 块 

一 旦 分 配器 找到 一 个 匹配 的 空闲 块 ， 它 就 必须 做 另 一 个 策略 决定 ， 那 就 是 分 配 这 个 空闲 块 中 
多 少 空间 。 一 个 选择 是 用 整个 空闲 块 。 虽 然 这 种 方式 简单 而 快捷 ， 但 是 主要 的 缺点 就 是 它 会 造成 
内 部 碎片 。 如 果 放 置 策略 趋向 于 产生 好 的 匹配 ， 那 么 额外 的 内 部 碎片 也 是 可 以 接受 的 。 

然而 ， 如 果 匹 配 不 太 好 ， 那 么 分 配器 通常 会 选择 将 这 个 空闲 块 分 割 为 两 部 分 。 第 一 部 分 变 成 
分 配 块 ， 而 剩 下 的 变 成 一 个 新 的 空闲 块 。 图 9-37 展示 了 分 配器 如 何 分 割 图 9-36 中 8 个 字 的 空闲 
块 ， 来 满足 一 个 应 用 的 对 堆 存 储 器 3 个 字 的 请 求 。 








图 9-37 分割 一 个 空闲 块 ， 以 满足 一 个 3 个 字 的 分 配 请 求 。 阴 影 部 分 是 已 分 配 块 。 没 有 阴影 的 部 分 是 
空闲 块 。 头 部 标记 为 〈 大 小 〈 字 节 ) / 已 分 配 位 ) 


9.9.9 获取 额外 的 堆 存 储 器 
如 果 分 配器 不 能 为 请 求 块 找到 合适 的 空闲 块 将 发 生 什么 呢 ? 一 个 选择 是 通过 合并 那些 在 存储 
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器 中 物理 上 相 邻 的 空闲 块 来 创建 一 些 更 大 的 空闲 块 〈 将 在 下 一 节 中 描述 )。 然 而 ， 如 果 这 样 还 是 
不 能 生成 一 个 足够 大 的 块 ， 或 者 如 果 空 闲 块 已 经 最 大 程度 地 合并 了 ， 那 么 分 配器 就 会 通过 调用 
sbrk 函数 ， 回 内 核 请 求 额 外 的 堆 存 储 器 。 分 配器 将 额外 的 存储 器 转化 成 一 个 大 的 空 闲 据 ， 将 这 
个 块 插 入 到 空闲 链表 中 ， 然 后 将 被 请 求 的 块 放 置 在 这 个 新 的 空闲 块 中 。 
9.9.10 ”合并 空闲 块 

当 分 配器 释放 一 个 已 分 配 块 时 ， 可 能 有 其 他 空闲 块 与 这 个 新 释放 的 空闲 块 相 邻 。 这 些 邻 接 的 
空闲 块 可 能 引起 一 种 现象 ， 叫 做 假 碎 片 〈fault fragmentation)， 就 是 有 许多 可 用 的 空闲 块 被 切割 
成 小 的 、 无 法 使 用 的 空闲 块 。 比 如 ， 图 9-38 展示 了 释放 图 9-37 中 分 配 的 块 后 得 到 的 结果 。 结 果 
是 两 个 相 邻 的 空闲 块 ， 每 一 个 的 有 效 载 从 都 为 3 个 字 。 因 此 ， 接 下 来 一 个 对 4 个 字 有 效 载荷 的 请 
求 就 会 失败 ， 即 使 两 个 空闲 块 的 合计 大 小 足够 大 ， 可 以 满足 这 个 请 求 。 





罗 9-38 人 ER a ss 用 块 。 六部 标记 为 (大 小 ( 字 地 ) 
/已 分 配 位 ) 


为 了 解决 假 碎 片 问 题 ， 任 何 实际 的 分 配器 都 必须 合并 相 邻 的 空闲 块 ， 这 个 过 程 称 为 合并 
(coalescing)。 这 就 出 现 了 一 个 重要 的 策略 决定 ， 那 就 是 何 时 执行 合并 。 分 配器 可 以 选择 立即 合 
并 (immediate coalescing)， 也 就 是 在 每 次 一 个 块 被 释放 时 ， 就 合并 所 有 的 相 邻 块 。 或 者 它 也 可 
以 选择 推迟 合并 (deferred coalescing)， 也 就 是 等 到 某 个 稍 晚 的 时 候 再 合并 空闲 块 。 例 如 ， 分 配 
器 可 以 推迟 合并 ， 直 到 某 个 分 配 请 求 失 败 ， 然 后 扫描 整个 堆 ， 合 并 所 有 的 空闲 块 。 

立即 合并 很 简单 明了 ， 可 以 在 常数 时 间 内 执行 完成 ， 但 是 对 于 某 些 请 求 模 式 ， 这 种 方式 会 产 

生 一 种 形式 的 抖动 ， 块 会 反复 地 合并 ， 然 后 马上 分 制 。 例 如 ， 在 图 9-38 中 ， 反 复 地 分 配 和 释放 
一 个 3 个 字 的 块 将 产生 大 量 不 必要 的 分 割 和 合并 。 在 对 分 配器 的 讨论 中 ， 我 们 会 假设 使 用 立即 合 
并 ， 但 是 你 应 该 了 解 ， 快 速 的 分 配器 通常 会 选择 某 种 形式 的 推迟 合并 。 

9.9.11 ” 带 边 界 标记 的 合并 

分 配器 是 如 何 实现 合并 的 ? 让 我 们 称 想 要 释放 的 块 为 当前 块 。 那 么 ， 合 并 (存储 器 中 的 ) 下 
一 个 空闲 块 很 简单 而 且 高 效 。 当 前 块 的 头 部 指向 下 一 个 块 的 头 部 ， 可 以 检查 这 个 指针 以 判断 下 一 
个 块 是 否 是 空闲 的 。 如 果 是 ， 就 将 它 的 大 小 简单 地 加 到 当前 块头 部 的 大 小 上 ， 这 两 个 块 在 常数 时 
间 内 被 合并 。 z 

但 是 我 们 该 如 何 合并 前 面 的 块 呢 ? 给 定 一 个 带 ”3 二 
头 部 的 隐 式 空闲 链表 ， 唯 一 的 选择 将 是 搜索 整个 链 块 大 小 ff 
表 ， 记 住 前 面 块 的 位 置 ， 直 到 我 们 到 达 当 前 块 。 使 -J 
用 隐 式 空闲 链表 ， 这 意味 着 每 次 调用 free 需要 的 
时 间 都 与 堆 的 大 小 呈 线 性 关系 。 即 使 使 用 更 复杂 精 
细 的 空闲 链表 组 织 ， 搜 索 时 间 也 不 会 是 常数 。 

Knuth 提出 了 一 种 聪明 而 通用 的 技术 ， 叫 做 边界 
标记 〈boundary tag)， 人 允许 在 常数 时 间 内 进行 对 前 面 
块 的 合并 。 这 种 思想 ， 如 图 9-39 所 示 ， 是 在 每 个 块 2 人 
的 结尾 处 添加 一 个 脚 部 〈footer， 边 界 标 记 )， 其 中 


脚 部 就 是 头 部 的 一 个 副本 。 如 果 每 个 块 包括 这 样 一 图 9-39 ”使 用 边界 标记 的 堆 块 的 格式 


a = 001: 已 分 配 的 
头 部 a -= 000: 空闲 的 








有 效 载荷 
(只 包括 已 分 配 的 块 ) 






脚 部 
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个 脚 部 ， 那 么 分 配器 就 可 以 通过 检查 它 的 脚 部 ， 判 断 前 面 一 个 块 的 起 始 位 置 和 状态 ， 这 个 脚 部 总 
是 在 距 当 前 块 开始 位 置 一 个 字 的 距离 。 

考虑 当 分 配器 释放 当前 块 时 所 有 可 能 存在 的 情况 : 

1) 前 面 的 块 和 后 面 的 块 都 是 已 分 配 的 。 

2) 前 面 的 块 是 已 分 配 的 ， 后 面 的 块 是 空闲 的 。 

3) 前 面 的 块 是 空闲 的 ， 而 后 面 的 块 是 已 分 配 的 。 

4) 前 面 的 和 后 面 的 块 都 是 空闲 的 。 

图 9-40 展示 了 我 们 如 何 对 这 四 种 情况 进行 合并 。 在 情况 1) 中 ， 两 个 邻接 的 块 都 是 已 分 配 
的 ， 因 此 不 可 能 进行 合并 。 所 以 当前 块 的 状态 只 是 简单 地 从 已 分 配 变 成 空 凋 。 在 情况 2) 中 ， 当 
前 块 与 后 面 的 块 合并 。 用 当前 块 和 后 面 块 的 大 小 的 和 来 更 新 当前 块 的 头 部 和 后 面 块 的 脚 部 。 在 情 
况 3) 中 ， 前 面 的 块 和 当前 块 合 并 。 用 两 个 块 大 小 的 和 来 更 新 前 面 块 的 头 部 和 当前 块 的 脚 部 。 在 
情况 4) 中 ， 要 合并 所 有 的 三 个 块 形成 一 个 单独 的 空闲 块 ， 用 三 个 块 大 小 的 和 来 更 新 前 面 块 的 头 
部 和 后 面 块 的 脚 部 。 在 每 种 情况 中 ， 合 并 都 是 在 常数 时 间 内 完成 的 。 
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图 9-40 使 用 边界 标记 的 全 并。 情况 1 : 前 面 的 和 后 面 块 都 已 分 配 。 情 况 2 , 前 面 的 块 已 分 配 ， 后 面 
的 块 空 闸 。 情 况 3 : 前 面 的 块 空 闲 ， 后 面 的 块 已 分 配 。 情 况 4 : 后 面 的 块 和 前 面 的 块 都 空闲 


边界 标记 的 概念 是 简单 优雅 的 ， 它 对 许多 不 同类 型 的 分 配器 和 空闲 链表 组 织 都 是 通用 的 。 然 
而 ， 它 也 存在 一 个 潜在 的 缺陷 。 它 要 求 每 个 块 都 保持 一 个 头 部 和 一 个 脚 部 ， 在 应 用 程序 操作 许多 
个 小 块 时 ， 会 产生 显著 的 存储 器 开销 。 例 如 ， 如 果 一 个 图 形 应 用 通过 反复 调用 malloc 和 free 
来 动态 地 创建 和 销毁 图 形 节点 ， 并 且 每 个 图 形 节 点 都 只 要 求 两 个 存储 器 字 ， 那 么 头 部 和 脚 部 将 占 
用 每 个 已 分 配 块 的 一 半 的 空间 。 和 

” 笠 运 的 是 ， 有 一 种 非常 聪明 的 边界 标记 的 优化 方法 ， 能 够 使 得 在 已 分 配 块 中 不 再 需要 脚 部 。 
回想 一 下 ， 当 我 们 试图 在 存储 器 中 合并 当前 块 以 及 前 面 的 块 和 后 面 的 块 时 ， 只 有 在 前 面 的 块 是 空 
闲 时 ， 才 会 需要 用 到 它 的 脚 部 。 如 果 我 们 把 前 面 块 的 已 分 配 /空闲 位 存放 在 当前 块 中 多 出 来 的 低 
位 中 ， 那 么 已 分 配 的 块 就 不 需要 脚 部 了 ， 这 样 我 们 就 可 以 将 这 个 多 出 来 的 空间 用 作 有 效 载 荷 了 。 
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不 过 请 注意 ， 空 闲 块 仍然 需要 脚 部 。 
ES 练习 题 9.7 ”确定 下 面 每 种 对 齐 要 求 和 块 格式 的 组 合 的 最 小 的 块 大 小 。 假 设 : 隐 式 空闲 链表 ， 不 允许 
有 效 载 荷 为 零 ， 头 部 和 脚 部 存放 在 4 字 节 的 字 中 。 


对 齐 要 求 已 分 配 的 块 
头 部 和 脚 部 





A 
9.9.12 综合 : 实现 一 个 简单 的 分 配器 

构造 一 个 分 配器 是 一 件 富有 挑战 性 的 任务 。 设 计 空间 很 大 ， 有 多 种 块 格式 、 空 链表 格式， 
以 及 放置 、 分 割 和 合并 策略 可 供 选 择 。 另 一 个 挑战 就 是 你 经 常 被 迫 在 类 型 系统 的 安全 和 熟悉 的 限 
定之 外 编程 ， 依 赖 于 容易 出 错 的 指针 强制 类 型 转换 和 指针 运算 ， 这 些 操 作 都 属于 典型 的 低层 系统 
编程 。 

虽然 分 配器 不 需要 大 量 的 代码 ， 但 是 它们 也 还 是 细微 而 不 可 忽视 的 。 熟悉 诸 如 C++ 或 者 
Java 之 类 高 级 语言 的 学 生 通 常 在 他 们 第 一 次 遇 到 这 种 类 型 的 编程 时 ， 会 遭遇 一 个 概念 上 的 障碍 。 
为 了 帮助 你 清除 这 个 障碍 ， 我 们 将 基于 隐 式 空闲 链表 ， 使 用 立即 边界 标记 合并 方式 ， 从 头 至 尾 地 
讲述 一 个 简单 分 配器 的 实现 。 最 大 的 块 大 小 为 2” = 4 GB。 代 码 是 64 位 干净 的 ， 即 代码 能 不 加 修 
改 地 运行 在 32 位 (gcc -m32) 或 64 位 (gcc -m64) 的 进程 中 。 

1. 一 般 分 配器 设计 

我 们 的 分 配器 使 用 如 图 9-41 所 示 的 memlib.c 包 所 提供 的 一 个 存储 器 系统 模型 。 模 型 的 目 
的 在 于 允许 我 们 在 不 干涉 已 存在 的 系统 层 malloc 包 的 情况 下 运行 分 配器 。mem init 函数 将 
对 于 堆 来 说 可 用 的 虚拟 存储 器 模型 化 为 一 个 大 的 、 双 字 对 齐 的 字 贡 数组。 在 mem_heap 和 mem_ 
brk 之 间 的 字 节 表示 已 分 配 的 虚拟 存储 器 。mem_brk 之 后 的 字 节 表 示 未 分 配 的 虚拟 存储 器 。 分 
配器 通过 调用 mem_sbrk 函数 来 请 求 额外 的 堆 存 储 器 ， 这 个 函数 和 系统 的 sbrk 函数 的 接口 相 
同 ， 而 且 语 义 也 相同 ， 除 了 它 会 拒绝 收缩 堆 的 请 求 。 

分 配器 包含 在 一 个 源 文件 中 (mm.c)， 用 户 可 以 编译 和 链接 这 个 源 文 件 到 他 们 的 应 用 之 中 。 
分 配器 输出 三 个 函数 到 应 用 程序 : 





1 extern int mm_init(void); 
2 extern void *mm malloc (size_t size); 
3 extern void mm_free (void *ptr); 


mm_init 函数 初始 化 分 配器 ， 如 果 成 功 就 返回 0， 否则 就 返回 -1。mm_malloc 和 mm_ 
free 函数 与 它们 对 应 的 系统 函数 有 相同 的 接口 和 语义 。 分 配器 使 用 如 图 9-39 所 示 的 块 格式 。 最 
“小 块 的 大 小 为 16 字 节 。 空 闲 链表 组 织 成 为 一 个 隐 式 空闲 链表 ， 具 有 如 图 9-42 所 示 的 恒定 形式 。 

第 一 个 字 是 一 个 双 字 边界 对 齐 的 不 使 用 的 填充 字 。 填 充 后 面 紧 跟着 一 个 特殊 的 序言 块 
(prologue block)， 这 是 一 个 8 字 节 的 已 分 配 块 ， 只 由 一 个 头 部 和 一 个 脚 部 组 成 。 序 言 块 是 在 初始 
化 时 创建 的 ， 并 且 永 不 释放 。 在 序言 块 后 紧 跟 的 是 零 个 或 者 多 个 由 malloc 或 free 调用 创建 的 
普通 块 。 堆 总 是 以 一 个 特殊 的 结尾 块 〈epilogue block) 来 结束 ， 这 个 块 是 一 个 大 小 为 零 的 已 分 配 
块 ， 只 由 一 个 头 部 组 成 。 序 言 块 和 结尾 块 是 一 种 消除 合并 时 边界 条 件 的 技巧 。 分 配器 使 用 一 个 单 
独 的 私有 (static) 全 局 变量 (heap 1Listp)， 它 总 是 指向 序言 块 。( 作 为 一 个 小 的 优化 ， 我 
们 可 以 让 它 指向 下 一 个 块 ， 而 不 是 这 个 序言 块 。) 
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code/vm/malloc/memlib.c 


1 /* Private global variables +*/ 
2 static char *mem_heap; /* Points to first byte of heap */ 
3 static char *mem_brk; /* Points to last byte of heap plus 1 */ 
4 static char *mem_max_addr; /* Max legal heap addr plus 1*/ 
5 
6 /* 
7 * mem._init ~ Initialize the memory system model 
8 */ 
9 void mem_init(void) 
10 +{. 
11 mem_heap = (char *)Malloc (MAX_HEAP); 
12 mem_brk = (char *)mem.heap; 
13 mem_max_addr = (char *) (mem_heap + MAX_HEAP) ; 
14 } 
139 
16 Ai 
17 * mem_sbrk - Simple model of the sbrk function. Extends the heap 
18 水 by incr bytes and returns the start address of the new area. ln 
19 水 this model, the heap cannot be shrunk. 
20 */ 
21 void *mem_sbrk(int incr) 
22 荆 
23 . Char *old._brk = mem_brk ; 
24 | 
站 if ( (incr < 0) || ((mem_brk + incr) > mem_max_addr)) { 
26 errno = ENOMEM ; 
27 fprintf(stderr, "ERROR: mem_sbrk failed. Ran out of memory...\n'"); 
28 return (void *)-1; 
29 } 
30 mem_brk += incr; 
31 return (void *)old_brk; 
32 3 
code/vm/malloc/memlib.c 
图 9-41 memlib.c: 存储 器 系统 模型 
序言 块 普通 块 1 普通 块 2 普通 块 n 结尾 块 hdr 





static char *heap listp 


图 9-42 ” 隐 式 空闲 链表 的 恒定 形式 


2. 操作 空闲 链表 的 基本 常数 和 宏 

图 9-43 展示 了 一 些 我 们 在 分 配器 编码 中 将 要 使 用 的 基本 常数 和 安 安 。 第 2 一 4 行 定 义 了 一 些 
基本 的 大 小 常数 : 字 的 大 小 (WSIZE) 和 双 字 的 大 小 (DSIZE)， 初始 空 s 闲 块 的 大 小 和 扩展 堆 时 
的 默认 大 小 (CHUNKSIZE )。 

在 空 闪 链 表 中 操作 头 部 和 脚 部 可 能 是 很 麻烦 的 ， 因 为 它 要 求 大 量 使 用 强制 类 型 转换 和 指针 运 
算 。 因 此 ， 我 们 发 现 定义 一 小 组 宏 来 访问 和 遍历 空闲 链表 是 很 有 帮助 的 (第 9 ~ 25 行 )。PACK 
宏 ( 第 9 行 ) 将 大 小 和 已 分 配 位 结合 起 来 并 返回 一 个 值 ， 可 以 把 它 存放 在 头 部 或 脚 部 。 
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code/vm/malloc/mm.c 
/* Basic constants and macros */ 
#define WSIZE 4 /* Word and header/footer size (bytes) */ 
#define DSIZE 8 /* Double word size (bytes) */ 


#define CHUNKSIZE (1<<12) /* Extend heap by this amount (bytes) */ 
#define MAX(x, y) ((x) > (y)? (x) : (y)) 


/* Pack a size and allocated bit into a word */ 
#define PACK(size, alloc) ((size) | (alloc)) 


/* Read and write a word at address p */ 
#define GET(p) (*(unsigned int *)(p)) 
#define PUT(p, val) (*(unsigned int *)(p) = (val)) 


Wn NO 0 RNY oO AAAw Ni 一 


/* Read the size and allocated fields from address p +*/ 
16  #define GET_SIZE(p) (GET(p) & ~0x7) 


17  #define GET_ALLOC(p) (GET(p) & Ox1) 

18 

19 /* Given block ptr bp, compute address of its header and footer */ 
20 #define HDRP (bp) ((char *) (bp) - WSIZE) 

21 #define FTRP (bp) ((char *) (bp) + GET_SIZE(HDRP(bp)) - DSIZE) 


NY 
下 >) 


/* Given block Ptr bp, compute address of next and previous blocks */ 
#define NEXT_BLKP(bp) ((char *) (bp) + GET_SIZE(((char *) (bp) - WSIZE))) 
#define PREV_BLKP(bp) ((char *)(bp) - GET_SIZE(((char *) (bp) -~ DSIZE))) 


code/vm/malloc/mm.c 


Ny A NN 


图 9-43 ”操作 空闲 链表 的 基本 常数 和 宏 


GET 宏 (第 12 行 ) 读 取 和 返回 参数 p 引用 的 字 。 这 里 强制 类 型 转换 是 至 关 重 要 的 。 参 数 p 
典型 地 是 一 个 (viod *) 指针 ， 不 可 以 直接 进行 间接 引用 。 类 似 地 ，PUT 宏 (第 13 行 ) 将 val 
存放 在 参数 p 指 癌 的 字 中 。 

GET_SIZE 和 GET ALLOC 宏 (第 16 ~ 17 行 ) 从 地 址 p 处 的 头 部 或 脚 部 分 别 返 回 大 小 和 
2 剩 下 的 宏 是 对 块 指针 (block pointer， 用 bp 表示 ) 的 操作 ， 块 指针 指向 第 一 个 有 效 载 
荷 字 节 。 给 定 一 个 块 指针 bp，HDRP 和 FTRP 宏 (第 20 一 21 行 ) 分 别 返回 指向 这 个 块 的 头 部 
和 脚 部 的 指针 。 NEXT BLKP 和 PREV BLKP 宏 (第 24 一 25 行 ) 分 别 返 回 指向 后 面 的 块 和 前 
面 的 块 的 块 指针 。 

可 以 用 多 种 方式 来 编辑 宏 ， 以 操作 空闲 链表 。 比 如 ， 给 定 一 个 指向 当前 块 的 指针 bp， 我 们 
可 以 使 用 下 面 的 代码 行 来 确定 存储 器 中 后 面 的 块 的 大 小 : 


size_t size = GET_SIZE(HDRP (NEXT_BLKP (bp))); 


3. 创建 初始 空闲 链表 

在 调用 mm_malloc 或 mm_free 之 前 ， 应 用 必须 通过 调用 mm_init 函数 来 初始 化 堆 《〈 见 
图 9-44)。mm_init 函数 从 存储 器 系统 得 到 4 个 字 ， 并 将 它们 初始 化 ， 从 而 创建 一 个 空 的 空 
闲 链表 (第 4 一 10 行 )。 然 后 它 调用 extend_heap 函数 ( 见 图 9-453)， 这 个 函数 将 堆 扩 展 
CHUNKSIZE 字 节 ， 并 且 创 建 初始 的 空闲 块 。 此 刻 ， 分 配器 已 初始 化 了 ， 并 且 准 备 好 接受 来 自 应 
用 的 分 配 和 释放 请 求 。 

. extend heap 函数 会 在 两 种 不 同 的 环境 中 被 调用 ， 1) 当 堆 被 初始 化 时 ;2) 当 mm_ 

malloc 不 能 找到 一 个 合适 的 匹配 块 时 。 为 了 保持 对 齐 ，extend_heap 将 请 求 大 小 向 上 舍 人 为 
最 接近 的 2 字 (8 字 节 ) 的 倍数 ， 然 后 向 存储 器 系统 请 求 额外 的 堆 空 间 (第 7 ~ 9 行 )。 
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code/vm/malloc/mm.c 
1 int mm_init(void) 
2 攻 
3 /# Create the initial empty heap */ 
4 if ((heap_listp = mem_sbrk(4*WSIZE)) == (void *)-1) 
5 return -1; 
6 PUT (heap._listp, 0); /* ALignment padding +*/ 
7 PUT(heap_listp + (1*WSIZE), PACK(DSIZE, 1)); /* Prologue header */ 
8 PUT(heap_listp + (2*WSIZE), PACK(DSIZE, 1)); /* Prologue footer */ 
9 PUT(heap_listp + (3*WSIZE), PACK(0, 1)); /* Epilogue header */ 
10 heap_listp += (2*WSIZE); 
11 
12 /* Extend the empty heap with a free block of CHUNKSIZE bytes */ 
13 if (extend_ 人 == NULL) 
14 return -1; 
15 return 0 ; 
16  】 


code/vm/malloc/mm.c 
图 9-44 mm_init ; 创建 一 个 带 初 始 空闲 块 的 堆 


code/vm/malloc/mm.c 
1 static void *extend_heap(size_t words) 
2 { z 
3 char *bp; 
4 size_t size,; 
5 
6 /* Allocate an even number of words to maintain alignment */ 
7 size = (words % 2) ? (words+1) * WSIZE : Wwords * WSIZE; 
8 if ((long) (bp = mem_sbrk(size)) == -1) 
9 return NULL ; 
10 
11 /* Tnitialize free block header/footer and the epilogue header */ 
12 PUT (HDRP (bp), PACK (size, 0)); /* Free block header */ 
13 PUT(FTRP (bp), PACK(size, 0)); /* Free block footer */ 
14 PUT(HDRP (NEXT_BLKP (bp)), PACK(O0, 1)); /* New epilogue header */ 
15 
16 /* Coalesce if the previous block was free */ 
17 return coalesce(bp); 
18 


code/ vm/malloc/mm.c 
图 9-45 extend_ heap : 用 一 个 新 的 空闲 块 扩展 堆 


extend_heap 函数 的 剩余 部 分 (第 12 ~ 17 行 ) 有 点 微妙 。 堆 开始 于 一 个 双 字 对 齐 的 边 
界 ， 并 且 每 次 对 extend_heap 的 调用 都 返回 一 个 块 ， 该 块 的 大 小 是 双 字 的 整数 倍 。 因 此 ， 对 
mem_sbrk 的 每 次 调用 都 返回 一 个 双 字 对 齐 的 存储 器 片 ， 紧 跟 在 结尾 块 的 头 部 后 面 。 这 个 头 部 
变 成 了 新 的 空闲 块 的 头 部 (第 12 行 )， 并 且 这 个 片 的 最 后 一 个 字 变 成 了 新 的 结尾 块 的 头 部 〈 第 
“14 行 )。 最 后 ， 在 很 可 能 出 现 的 前 一 个 堆 以 一 个 空闲 块 结束 的 情况 下 ， 我 们 调用 coalesce 函 
数 来 合并 两 个 空闲 块 ， 并 返回 指向 合并 后 的 块 的 块 指针 〈 第 17 行 )。 

4. 释放 和 合并 块 

应 用 通过 调用 mm_free 函数 〈 见 图 9-46) 来 释放 一 个 以 前 分 配 的 块 ， 这 个 函数 释放 所 请 求 
的 块 (bp)， 然 后 使 用 9.9.11 节 中 描述 的 边界 标记 合并 技术 将 之 与 邻接 的 空闲 块 合并 起 来 。 
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code/ vm/malloc/mm.c 
1 void mm_free(void *bp) 
2 泛 
3 size_t size = GET_SIZE(HDRP (bp)); 
4 
5 PUT (HDRP (bp), PACK(size, 0)); 
6 PUT(FTRP (bp), PACK(size, 0)); 
7 coalesce(bp) ; 
8 J 


10 static void *coalesce(void *bp) 


i1 + 

12 size_t prev_alloc = GET_ALLOC(FTRP (PREV_BLKP (bp))); 

13 size_t next_alloc = GET_ALLOC(HDRP (NEXT_ BEKP CPB) 

14 size_t size = GET_SIZE(HDRP (bp)); 

15 

16 if (prev_alloc && next_alloc) { /* Case 1 */ 
17 . return bp; 

18 } 

19 

20 else if (prev_alloc && !next_alloc) { /* Case 2 */ 
21 size += GET_SIZE (HDRP (NEXT_BLKP (bp))); 

22 PUT (HDRP (bp) , PACK (size, 0)); 

23 PUT(FTRP (bp) ，PACK(size,0)) ; 

24 } 

25 

26 else if (!prev_alloc && next_alloc) { /* Case 3 */ 
27 size += GET_SIZE(HDRP (PREV_BLKP (bp))); 

28 PUT (FTRP (bp) , PACK (size, 0)); 

29 PUT (HDRP (PREV_BLKP (bp)), PACK (size, 0)); 

30 bp = PREV_BLKP (bp); 

3 } 

32 

33 else { /本 Case 4 */ 
34 size += GET_SIZE(HDRP(PREV_BLKP(bp))) + 

35 GET_SIZE (FTRP (NEXT_BLKP (bp) ) ) ; 

36 PUT (HDRP (PREV_BLKP (bp)), PACK(size, 0)); 

37 PUT (FTRP (NEXT_BLKP (bp)), PACK (size, 0)); 

38 bp = PREV_BLKP (bp); 

39 } 

40 return bp; 

41 } | 


一 COdev11VU1IQLoc11a111.C 
图 9-46 mm free : 释放 一 个 块 ， 并 使 用 边界 标记 合并 将 其 与 所 有 的 邻接 空闲 块 在 常数 时 间 内 合并 


coalesce 函数 中 的 代码 是 图 9-40 中 勾画 的 四 种 情况 的 一 种 简单 直接 的 实现 。 这 里 也 有 一 
个 微妙 的 方面 。 我 们 选择 的 空闲 链表 格式 〈 它 的 序言 块 和 结尾 块 总 是 标记 为 已 分 配 ) 允许 我 们 忽 
略 潜在 的 麻烦 的 边界 情况 ， 也 就 是 ， 请 求 块 bp 在 堆 的 起 始 处 或 者 是 在 堆 的 结尾 处 。 如 果 没 有 这 
些 特殊 块 ， 代 码 将 混乱 得 多 ， 更 加 容易 出 错 ， 并 且 更 慢 ， 因为 我 们 将 不 得 不 在 每 次 释放 请 求 时 者 
去 检查 这 些 并 不 常见 的 边界 情况 。 

5. 分 配 块 

A 
在 检查 完 请 求 的 真 假 之 后 ， 分 配器 必须 调整 请 求 块 的 大 小 ， 从 而 为 头 部 和 脚 部 留 有 空间 ， 并 满足 
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双 字 对 齐 的 要 求 。 第 12 ~ 13 行 强 制 了 最 小 块 大 小 是 16 字 节 : 8 字 节 用 来 满足 对 齐 要 求 ， 而 另 
外 8 字 节 用 来 放 头 部 和 脚 部 。 对 于 超过 8 字 他 的 请 求 〈 第 15 行 )， 一 般 的 规则 是 加 上 开销 字 他 ， 
然后 向 上 舍 和 人 到 最 接近 的 8 的 整数 倍 。 


code/vm/malloc/mm.c 


void *mm malloc(size. t size) 


EL 
2 1 , 
3 size_t asize; /* Adjusted block size */ 
4 size_t extendsize; /* Amount to extend heap if no fit */ 
5 char *bp; 
6 
7 /* Ignore spurious requests */ 
8 if (size == 0) 
9 return NULL ; 
10 
1 /* Adjust block size to include overhead and alignment reqs, */ 
12 if (size <= DSIZE) 
13 asize = 2*DSIZE; 
14 else . 
15 asize = DSIZE * ((size + (DSIZE) + (DSIZE-1)) / DSIZE) ; 
16 
17 /* Search the free list for a fit */ 
18 if ((bp = find_fit(asize)) != NULL) { 
19 place(bp, asize); 
20 return bp; 
21 } 
- 22 
23 /* No fit found. Get more memory and place the block */ 
24 extendsize = MAX(asize ,CHUNKSIZE) ; 
25 if ((bp = extend_heap(extendsize/WSIZE)) == NULL) 
26 return NULL ; 
27 place(bp, asize); 
28 return bp; 
29 


code/ vm/malloc/mm.c 


图 9-47 mm_malloc : 从 空闲 链表 分 配 一 个 块 


一 旦 分 配器 调整 了 请 求 的 大 小 ， 它 就 会 搜索 空闲 链表 ， 寻 找 一 个 合适 的 空闲 块 〈 第 18 行 )。 
如 果 有 合适 的 ， 那 么 分 配器 就 放置 这 个 请 求 块 ， 并 可 选 地 分 割 出 多 余 的 部 分 〈 第 19 行 )， 然 后 返 
回 新 分 配 块 的 地 址 。 

如 果 分 配器 不 能 够 发 现 一 个 匹配 的 块 ， 那 么 就 用 一 个 新 的 空闲 块 来 扩展 堆 (第 24 ~ 26 行 )， 
把 请 求 块 放置 在 这 个 新 的 空闲 块 里 ， 可 选 地 分 割 这 个 块 (第 27 行 )， 然 后 返回 一 个 指针 ， 指 向 这 
个 新 分 配 的 块 。 
练习 题 9.8 为 99.12 节 中 描述 的 简单 分 配器 实现 一 个 find_fit 函数 。 


static void *find_fit(size_t asize) 

你 的 解答 应 该 对 隐 式 空闲 链表 执行 首次 适 配 搜索 。 
练习 题 9.9 为 示例 的 分 配器 编写 一 个 PLace 函数 。 

static void place(void *bp, size_t asize) 


你 的 解答 应 该 将 请 求 块 放 置 在 空闲 块 的 起 始 位 置 ， 只 有 当 剩 余部 分 的 大 小 等 于 或 者 超出 最 小 块 的 大 小 
时 ， 才 进行 分 割 。 
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9.9.13 ” 显 式 空闲 链表 

隐 式 空 = 闲 链表 为 我 们 提供 了 一 种 简单 的 介绍 一 些 基本 分 配器 概念 的 方法 。 然而 , 因为 块 分 配 
与 推 块 的 总 数 呈 线性 关系 ， 所 以 对 于 通用 的 分 配器 ， 隐 式 空闲 链表 是 不 适合 的 〈 尽 管 对 于 堆 块 数 
量 预先 就 知道 是 很 小 的 特殊 的 分 配器 来 说 它 是 可 以 的 )。 

一 种 更 好 的 方法 是 将 空闲 块 组 织 为 某 种 形式 的 显 式 数 据 结 构 。 因 为 根据 定义 ， 程 序 不 需要 一 
个 空闲 块 的 主体 ， 所 以 实现 这 个 数据 结构 的 指针 可 以 存放 在 这 些 空闲 块 的 主体 里 面 。 例 如 ， 堆 可 
以 组 织 成 一 个 双向 空闲 链表 ， 在 每 个 空闲 块 中 ， 都 包含 一 个 pred (前 驱 ) 和 succ (后 继 ) 指 
针 ， 如 图 9-48 所 示 。 


3210 
pred (祖先 ) 
a 





b ) 空闲 块 
图 9-48 ”使 用 双 回 空闲 链表 的 堆 块 的 格式 


使 用 双向 链表 而 不 是 隐 式 空闲 链表 ， 使 首次 适 配 的 分 配 时 间 从 块 总 数 的 线性 时 间 减 少 到 了 空 
闲 块 数量 的 线性 时 间 。 不 过 ， 释 放 一 个 块 的 时 间 可 以 是 线性 的 ， 也 可 能 是 个 常数 ， 这 取决 于 我 们 
所 选择 的 空闲 链表 中 块 的 排序 策略 。 z 

一 种 方法 是 用 后 进 先 出 〈LIFO) 的 顺序 维护 链表 ， 将 新 释放 的 块 放置 在 链表 的 开始 处 。 使 
用 LIFO 的 顺序 和 首次 适 配 的 放置 策略 ， 分 配器 会 最 先 检查 最 近 使 用 过 的 块 。 在 这 种 情况 下 ， 释 
放 一 个 块 可 以 在 常数 时 间 内 完成 。 如 果 使 用 了 边界 标记 ， 那 么 合并 也 可 以 在 常数 时 间 内 完成 。 

另 一 种 方法 是 按照 地 址 顺序 来 维护 链表 ， 其 中 链表 中 每 个 块 的 地 址 都 小 于 它 后 继 的 地 址 。 在 
这 种 情况 下 ， 释 放 一 个 块 需要 线性 时 间 的 搜索 来 定位 合适 的 前 驱 。 平 衡 点 在 于 ， 按 照 地址 排序 的 
首次 适 配 比 LIFO 排序 的 首次 适 配 有 更 高 的 存储 器 利用 率 ， 接 近 最 佳 适 配 的 利用 率 。 
一 般 而 言 ， 显 式 链 表 的 缺点 是 空闲 块 必须 足够 大 ， 以 包含 所 有 需要 的 指针 ， 以 及 头 部 和 可 能 
he eta WE 了 内 部 碎片 的 程度 。 z 
9.9.14 分离 的 空闲 链表 | 

就 像 我 们 已 经 看 到 的 ， 一 个 使 用 单 向 空 ;用 块 链表 的 分 配器 需要 与 空间 块 数量 旺 线性 关系 的 时 
间 来 分 配 块 。 一 种 流行 的 减少 分 配 时 间 的 方法 ， 通 常 称 为 分 离 存 储 〈segregated storage)， 就 是 维 
护 多 个 空闲 链表 ， 其 中 每 个 链表 中 的 块 有 大 致 相等 的 大 小 。 一 般 的 思路 是 将 所 有 可 能 的 块 大 小 分 
成 一 些 等 价 类 ， 也 叫做 大 小 类 (size class)。 有 很 多 种 方式 来 定义 大 小 类 。 例 如 ， 我 们 可 以 根据 2 
的 天 来 划分 块 大 小 : 

{1}, {2}, {3,4}, {5 ~ 8},.*, {1025 一 2048}, {2049 ~ 4096}，, {4097 一 co . 
或 者 我 们 可 以 将 小 的 块 分 派 到 它们 自己 的 大 小 类 里 ， 而 将 大 块 按照 2 的 寄 分 类 : 
{1}, {2}, {3},..., {1023}, {1024}, {1025 ~ 2048}, {2049 ~ 4096}, {4097 ~ oo } 
分 配器 维护 着 一 个 空闲 链表 数组 ， 每 个 大 小 类 一 个 空闲 链表 ， 按照 大 小 的 升序 排列 。 当 分 配 
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器 需要 一 个 大 小 为 n 的 块 时 ， 它 就 搜索 相应 的 空 闪 链表 。 如 果 它 不 能 找到 合适 的 块 与 之 匹配 ， 它 
就 搜索 下 一 个 链表 ， 以 此 类 推 。 

有 关 动 态 存储 分 配 的 文献 描述 了 几 十 种 分 离 存 储 方法 ， 主 要 的 区 别 在 于 它们 如 何 定 义 大 小 
类 ， 何 时 进行 合并 ， 何 时 向 操作 系统 请 求 额 外 的 堆 存 储 器 ， 是 否 允 许 分 割 ， 等 等 。 为 了 使 你 大 致 
了 解 有 哪些 可 能 性 ， 我 们 会 描述 两 种 基本 的 方法 : 简单 分 离 存储 (simple segregated storage) 和 
分 离 适 配 (segregated fit)。 

1. 简单 分 离 存储 

使 用 简单 分 离 存储 ， 每 个 大 小 类 的 空闲 链表 包含 大 小 相等 的 块 ， 每 个 块 的 大 小 就 是 这 个 大 小 
类 中 最 大 元 素 的 大 小 。 例 如 ， 如 果 某 个 大 小 类 定义 为 {17 ~ 32}， 人 用 链表 全 由 大 
小 为 32 的 块 组 成 。 

为 了 分 配 一 个 给 定 大 小 的 块 ， 我 们 检查 相应 的 空闲 链表 。 如 果 链 表 非 空 ， 我 们 简单 地 分 配 其 
中 第 一 块 的 全 部 。 空 闲 块 是 不 会 分 割 以 满足 分 配 请 求 的 。 如 果 链 表 为 空 ， 分 配器 就 向 操作 系统 请 
求 一 个 固定 大 小 的 额外 存储 器 片 〈 典 型 地 是 页 大 小 的 整数 倍 )， 将 这 个 片 分 成 大 小 相等 的 块 并 
将 这 些 块 链接 起 来 形成 新 的 空闲 链表 。 要 释放 一 个 块 ， 分 配器 内 《要 简单 地 将 这 个 块 插入 到 相应 的 
空 闪 链表 的 前 部 。 : z 
” ”这 种 简单 的 方法 有 许多 优点 。 分 配 和 释放 块 都 是 很 快 的 常数 时 间 操 作 。 而 且 ， 每 个 片 中 都 是 
大 小 相等 的 块 ， 不 分 割 ， 不 合并 ， 这 意味 着 每 个 块 只 有 很 少 的 存储 器 开销 。 既 然 每 个 片上 共有 大 小 
相同 的 块 ， 那 么 一 个 已 分 配 块 的 大 小 就 可 以 从 它 的 地 址 中 推断 出 来 。 因 为 没有 合并 ， 所 以 已 分 配 
块 的 头 部 就 不 需要 一 个 已 分 配 的 / 空闲 标记 。 因 此 已 分 配 块 不 需要 头 部 ， 同 时 因为 没有 合并 ， 它 
们 也 不 需要 肢 部 。 因 为 分 配 和 释放 操作 都 是 在 空闲 链表 的 起 始 处 操作 ， 所 以 链表 只 需要 是 单 向 
的 ， 而 不 用 是 双向 的 。 关 键 点 在 于 ， 在 任何 的 中 都 需要 的 唯一 字段 是 每 个 空闲 块 中 的 一 个 字 的 
succ 指针 ， 因 此 最 小 块 大 小 就 是 一 个 字 。 

一 个 显著 的 缺点 是 ， 简 单 分 离 存 储 很 容易 造成 内 部 和 外 部 碎片 。 因 为 空闲 块 是 不 会 被 分 割 
的 ， 所 以 可 能 会 造成 内 部 碎片 。 更 糖 的 是 ， 因 为 不 会 合并 空闲 块 ， 所 以 某 些 引 用 模式 会 引起 极 多 
的 外 部 碎片 〈 见 练习 题 9.10 )。 
| 练习 题 9.10 ”描述 一 个 在 基于 简单 分 离 存 储 的 分 配器 中 会 导致 重 外 部 碎片 的 引 用 模式 。 

2. 分 离 适 配 

使 用 这 种 方法 ， 分 配器 维护 着 一 个 空闲 链表 的 数组 。 每 个 空闲 链表 是 和 一 个 大 小 类 相关 联 
的 ， 并 且 补 组织 成 某 种 类 型 的 显 式 或 隐 式 链表 。 每 个 链表 包含 潜在 的 大 小 不 同 的 块 ， 这 些 块 的 大 
小 是 大 小 类 的 成 员 。 有 许多 种 不 同 的 分 离 适 配 分 配器 。 这 里 ， 我 们 描述 了 一 种 简单 的 版 本 。 

为 了 分 配 一 个 块 ， 我 们 必须 确定 请 求 的 大 小 类 ， 并 且 对 适当 的 空闲 链表 做 首次 适 配 ， 查 找 一 

合适 的 块 。 如 果 我 们 找到 了 一 个 ， 那 么 我 们 (可 选 地 ) 分 割 它 ， 并 将 剩余 的 部 分 插入 到 适当 的 
0 如 果 我 们 找 不 到 合适 的 块 ， 那 么 就 搜索 下 一 个 更 大 的 大 小 类 的 空闲 链表 。 如 此 重 
复 ， 直 到 找到 一 个 合适 的 块 。 如 果 空 闲 链表 中 没有 合适 的 块 ， 那 么 我 们 就 向 操作 系统 请 求 额外 的 
堆 人 存储器， 从 这 个 新 的 堆 存 储 器 中 分 配 出 一 个 块 ， 将 剩余 部 分 放置 在 适当 的 大 小 类 中 。 要 释放 一 
个 块 ， 我 们 执行 合并 ， 并 将 结果 放置 到 相应 的 空闲 链表 中 。 

分 离 适 配 方法 是 一 种 常见 的 选择 ，C 标准 库 中 提供 的 GNU malloc 包 就 是 采用 的 这 种 方法 ， 
因为 这 种 方法 既 快 速 ， 对 存储 器 的 使 用 也 很 有 效率 。 搜 索 时 间 减 少 了 ， 因 为 搜索 被 限制 在 堆 的 某 
个 部 分 ， 而 不 是 整个 堆 。 存 储 器 利用 率 得 到 了 改善 ， 因 为 有 一 个 有 趣 的 事实 : 对 分 离 空闲 链表 的 
简单 的 首次 适 配 搜索 ， 其 存储 器 利用 率 近似 于 对 整个 堆 的 最 佳 适 配 搜索 的 存储 器 利用 率 。 

3. 伙伴 系统 

伙伴 系统 (buddy system) 是 分 离 适 配 的 一 种 特例 ， 其 中 每 个 大 小 类 都 是 2 的 寡 。 基 本 
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的 思路 是 假设 一 个 堆 的 大 小 为 2 个 字 ， 我 们 为 每 个 块 大 小 2 维护 一 个 分 离 空闲 链表 ， 其 中 
0 < < m。 请 求 块 大 小 同上 舍 和 人 到 最 接近 的 2 的 罕 。 最 开始 时 ， 只 有 一 个 大 小 为 2” 个 字 的 空 
闲 块 。 

为 了 分 配 一 个 大 小 为 2 的 块 ， 我 们 找到 第 一 个 可 用 的 、 大 小 为 2 的 块 ， 其 中 kt<j < m。 
如 果 j =k， 那 么 我 们 就 完成 了 。 否 则 ， 我 们 递归 地 二 分 割 这 个 块 ， 直 到 .j = k。 当 我 们 进行 这 样 
的 分 割 时 ， 每 个 剩 下 的 半 块 〈 也 叫做 伙伴 ) 被 放置 在 相应 的 空闲 链表 中 。 要 释放 一 个 大 小 为 2 
的 块 ， 我 们 继续 合并 空闲 的 伙伴 。 当 我 们 遇 到 一 个 已 分 配 的 伙伴 时 ， 我 们 就 停止 合并 。 

关于 伙伴 系统 的 一 个 关键 事实 是 ， 给 定 地 址 和 块 的 大 小 ， 很 容易 计算 出 它 的 伙伴 的 地 址 。 例 
如 ， 一 个 块 大 小 为 32 字 节 ， 地 址 为 


XXX…X00000 
它 的 伙伴 的 地 址 为 
xxX'…x10000 


换 句 话说 ， 一 个 块 的 地 址 和 它 的 伙伴 的 地 址 只 有 一 位 不 相同 。 

伙伴 系统 分 配器 的 主要 优点 是 它 的 快速 搜索 和 快速 合并 。 主 要 人 缺 点 是 要 求 块 大 小 为 2 的 寄 可 
能 导致 显著 的 内 部 碎片 。 因 此 ， 伙 伴 系统 分 配器 不 适合 通用 目的 的 工作 负载 。 然 而 ， 对 于 某 些 特 
定 应 用 的 工作 负载 ， 其 中 块 大 小 预先 知道 是 2 的 罕 ， 伙 伴 系统 分 配器 就 很 有 吸引 力 了 。 


9.10 ”垃圾 收集 


在 诸如 C malloc 包 这 样 的 显 式 分 配器 中 ， 应 用 通过 调用 malloc 和 free 来 分 配 和 释放 堆 
块 。 应 用 要 负责 释放 所 有 不 再 需要 的 已 分 配 块 。 
未 能 释放 已 分 配 的 块 是 一 种 常见 的 编程 错误 。 例如 ， 考 虑 下 面 的 C 函数 ， 作 为 处 理 的 一 部 


分 ， 它 分 配 一 块 临时 存储 : 


bad 


void garbage() 
int *p = (int *)Malloc(15213); 


return; /* Array p is garbage at this point */ 


} 


1 
2 
3 
4 
5 
6 


因为 程序 不 再 需要 p， 所 以 在 garbage 返回 前 应 该 释放 p。 不 幸 的 是 ， 程 序 员 忘 了 释放 这 个 块 。 
它 在 程序 的 生命 周期 内 都 保持 为 已 分 配 状态 ， 毫 无 必要 地 占用 着 本 来 可 以 用 来 满足 后 面 分 配 请 求 


”的 堆 空 间 。 


垃圾 收集 器 (garbage collector) 是 一 种 动态 存储 分 配器 ， 它 自动 释放 程序 不 再 需要 的 已 分 配 
块 。 这 些 块 称 为 垃圾 (garbage)《〈 因 此 术语 就 称 之 为 垃圾 收集 器 )。 上 自动 回收 推 存储 的 过 程 叫做 
垃圾 收集 (garbage collection)。 在 一 个 支持 垃圾 收集 的 系统 中 ， 应 用 显 式 分 配 堆 块 ， 但 是 从 不 显 
示 地 释放 它们 。 在 C 程序 的 上 下 文中 ， 应 用 调用 malloc， 但 是 从 不 调用 free。 反 之 ,垃圾 收 
集 器 定期 识别 垃圾 块 ， 并 相应 地 调用 free， 将 这 些 块 放 回 到 空闲 链表 中 。 

垃圾 收集 可 以 追溯 到 John McCarthy 在 20 世纪 60 年 代 早期 在 MIT 开发 的 Lisp 系统 。 它 是 
诸如 Java、ML、Perl 和 Mathematica 等 现代 语言 系统 的 一 个 重要 部 分 ， 而 且 它 仍然 是 一 个 重要 
而 活跃 的 研究 领域 。 有 关 文 献 描述 了 大 量 的 垃圾 收集 方法 ， 其 数量 令 人 上 吃惊。 我 们 的 讨论 局 限于 
McCarthy 独创 的 Mark&Sweep〔 标 记 & 清除 ) 算法 ， 这 个 算法 很 有 趣 ， 因 为 它 可 以 建立 在 已 存 
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在 的 malloc 包 的 基础 之 上 ， 为 C 和 C++ 程序 提供 垃圾 收集 。 
9.10.1 垃圾 收集 器 的 基本 知识 

垃圾 收集 器 将 存储 器 视 为 一 张 有 问 可 达 图 (reachability graph )， 其 形式 如 图 9-49 所 示 。 该 
图 的 节点 被 分 成 一 组 根 节 点 (root node) 和 一 组 堆 节 点 (heap node)。 每 个 堆 节 点 对 应 于 堆 中 的 
一 个 已 分 配 块 。 有 向 边 P 一 9 意味 着 块 中 的 某 个 位 置 指 疝 块 q 中 的 某 个 位 置 。 根 节点 对 应 于 这 
样 一 种 不 在 堆 中 的 位 置 ， 它 们 中 包含 指向 堆 中 的 指针 。 这 些 位置 可 以 是 寄存 器 、 栈 里 的 变量 ， 或 
者 是 虚拟 存储 器 中 读 写 数据 区 域内 的 全 局 变量 。 





图 9-49 ”垃圾 收集 器 将 存储 器 视 为 一 张 有 向 图 


当 存 在 一 条 从 任意 根 节点 出 发 并 到 达 p 的 有 向 路 径 时 ， 我 们 说 节点 p 是 可 达 的 (reachable)。 
在 任何 时 刻 ， 不 可 达 节 点 对 应 于 垃圾 ， 是 不 能 被 应 用 再 次 使 用 的 。 垃 圾 收集 器 的 角色 是 维护 可 达 
图 的 某 种 表示 ， 并 通过 释放 不 可 达 节 点 并 将 它们 返回 给 空闲 链表， 来 定期 地 回收 它们 。 

像 ML 和 Java 这 样 的 语言 的 垃圾 收集 器 ， 对 应 用 如 何 创 建 和 使 用 指针 有 很 严格 的 控制 ， 
能 够 维护 可 达 图 的 一 种 精确 的 表示 ， 因 此 也 就 能 够 回收 所 有 垃圾 。 然 而 ， 诸 如 C 和 C++ 这 
样 的 语言 的 收集 器 通常 不 能 维持 可 达 图 的 精确 表示 。 这 样 的 收集 器 也 叫做 保守 的 垃圾 收集 器 
(conservative garbage collector)。 从 某 种 意义 上 来 说 它们 是 保守 的 ， 即 每 个 可 达 块 都 被 正确 地 标 
记 为 可 达 了 ， 而 一 些 不 可 达 节 点 却 可 能 被 错误 地 标记 为 可 达 。 

收集 器 可 以 按 需 提供 它们 的 服务 ， 或 者 它们 可 以 作为 一 个 和 应 用 并 行 的 独立 线程 ， 不 断 地 更 
新 可 达 图 和 回收 垃圾 。 例 如 ， 考 虑 如 何 将 一 个 C 程序 的 保守 的 收集 器 加 入 到 已 存在 的 malloc 
包 中 ， 如 图 9-50 所 示 。 


动态 存储 分 配器 





图 9-50 ”将 一 个 保守 的 垃圾 收集 器 加 入 到 C 的 malloc 包 中 


无 论 何 时 需要 堆 空 间 ， 应 用 都 会 用 通常 的 方式 调用 malloc。 如 果 malloc 找 不 到 一 个 合适 
的 空闲 块 ， 那 么 它 就 调用 垃圾 收集 器 ， 希 望 能 够 回收 一 些 垃圾 到 空闲 链表 。 收 集 器 识别 出 垃圾 
块 ， 并 通过 调用 free 函数 将 它们 返回 给 堆 。 关 键 的 思想 是 收集 器 代替 应 用 去 调用 free。 当 对 
收集 器 的 调用 返回 时 ，malloc 重 试 ， 试 图 发 现 一 个 合适 的 空闲 块 。 如 果 还 是 失败 了 ， 那 么 它 就 
会 向 操作 系统 要 求 额外 的 存储 器 。 最 后 ，malloc 返回 一 个 指向 请 求 块 的 指针 〈 如 果 成 功 ) 或 者 
返回 一 个 空 指针 〈 如 果 不 成 功 )。 
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9.10.2 Mark&Sweep 垃圾 收集 器 

Mark&Sweep 垃圾 收集 器 由 标记 (mark) 阶段 和 清除 (Sweep) 阶段 组 成 ， 标 记 阶 段 标 记 出 
根 节 点 的 所 有 可 达 的 和 已 分 配 的 后 继 ， 而 后 面 的 清除 阶段 释放 每 个 未 被 标记 的 已 分 配 块 。 典 型 
地 ， 块 头 部 中 空闲 的 低位 中 的 一 位 用 来 表示 这 个 块 是 否 被 标记 了 。 

我 们 对 Mark&Sweep 的 描述 将 假设 使 用 下 列 函 数 ， 其 中 ptr 定义 为 typedef void*ptr。 

“ptr isPtr (ptr p) : 如 果 p 指向 一 个 已 分 配 块 中 的 某 个 字 ， 那 么 就 返回 一 个 指向 这 个 

块 的 起 始 位 置 的 指针 b。 否 则 返回 NULL。 

。jint blockMarked (ptr b) : 如 果 已 经 标记 了 块 b， 那 么 就 返回 true。 

。 int blockAllocated (ptr b) : 如 果 块 b 是 已 分 配 的 ， 那 么 就 返回 true。 

“void markBlock (ptr b) : 标记 块 b。 

“int length (ptr b) : 返回 块 b 的 以 字 为 单位 的 长 度 〈 不 包括 头 部 )。 

“void unmarkBlock (ptr b) : 将 块 b 的 状态 由 已 标记 的 改 为 未 标记 的 。 

“ptr nextBlock (ptr b) : 返回 堆 中 块 b 的 后 继 。 

标记 阶段 为 每 个 根 节 点 调用 一 次 图 9-51a 所 示 的 mark 函数 。 如 果 p 不 指 辐 一 个 已 分 配 并 且 
未 标记 的 堆 块 ，mark 函数 就 立即 返回 。 否 则 ， 它 就 标记 这 个 块 ， 并 对 块 中 的 每 个 字 递 归 地 调用 
它 目 己 。 每 次 对 mark 函数 的 调用 都 标记 某 个 根 节 点 的 所 有 未 标记 并 且 可 达 的 后 继 节 点 。 在 标记 
阶段 的 末尾 ， 任 何 未 标记 的 已 分 配 块 都 被 认定 为 是 不 可 达 的 ， 是 垃圾 ， 可 以 在 清除 阶段 回收 。 

清除 阶段 是 对 如 图 9-51b 所 示 的 sweep 函数 的 一 次 调用 。sweep 函数 在 堆 中 每 个 块 上 反复 
循环 ， 释 放 它 所 遇 到 的 所 有 未 标记 的 已 分 配 块 (也 就 是 垃圾 )。 


void sweep(ptr b, ptr end) { 
while (b < end) { 
if (blockMarked(b)) 
unmarkBlock(b); 
else if (blockAllocated(b)) 


void mark(ptr p) { 
if ((b = EPE) = NULL) 


return; 

if (blockMarked(b)) 
return ; 

markBlLock(b) ; 

len = Length(b) ; 

for (i=0; i < len; i++) 
mark(b[i] ) ; 

return; 


free(b) ; 
b = nextBlock(b); 
} 
return; 


} 





a) mark 函数 b) sweep 郴 数 
图 9-51 mark 和 sweep 函数 的 伪 代 码 


图 9-52 展示 了 一 个 小 堆 的 Mark&Sweep 的 图 形 化 解释 。 块 边界 用 粗 线条 表示 。 每 个 方块 对 
应 于 存储 器 中 的 一 个 字 。 每 个 块 有 一 个 字 的 头 部 ， 要 么 是 标记 了 的 ， 要 么 是 未 标记 的 。 

初始 情况 下 ， 图 9-52 中 的 堆 由 六 个 已 分 配 块 组 成 ， 其 中 每 个 块 都 是 未 分 配 的 。 第 3 块 包 
含 一 个 指向 第 1 块 的 指针 。 第 4 块 包含 指向 第 3 块 和 第 6 块 的 指针 。 根 指向 第 4 块 。 在 标记 阶 
段 之 后 ， 第 1 块 、 第 3 块 、 第 4 块 和 第 6 块 被 做 了 标记 ， 因 为 它们 是 从 根 节点 可 达 的 。 第 2 块 
和 第 5 块 是 未 标记 的 ， 因 为 它们 是 不 可 达 的 。 在 清除 阶段 之 后 ， 这 两 个 不 可 达 块 被 回收 到 空闲 
链表 。 
9.10.3 C 程序 的 保守 Mark&Sweep 

Mark&Sweep 对 C 程序 的 垃圾 收集 是 一 种 合适 的 方法 ， 因 为 它 可 以 就 地 工作 ， 而 不 需要 移动 
任何 块 。 然 而 ，C 语言 为 isPtr 函数 的 实现 造成 了 一 些 有 趣 的 挑战 。 
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标记 前 : 


| 未 标记 的 块头 部 

a A 

poem 人 记 归 
一 、 人 

标记 后 : Be 


图 9-52 ”标记 和 清除 示例 。 注 意 ， 这 个 示例 中 的 箭头 表示 存储 器 引用 ， 而 不 是 空闲 链表 指针 


第 一 ，C 不 会 用 任何 类 型 信息 来 标记 存储 器 位 置 。 因 此 ， 对 isPtr 没有 一 种 明显 的 方式 来 
判断 它 的 输入 参数 p 是 不 是 一 个 指针 。 第 二 ， 即 使 我 们 知道 p 是 一 个 指针 ， 对 isPtr 也 没有 明 
显 的 方式 来 判断 p 是 否 指向 一 个 已 分 配 块 的 有 效 载荷 中 的 某 个 位 置 。 

” 对 后 一 问题 的 解决 方法 是 将 已 分 配 块 集合 维护 成 一 棵 平衡 二 叉 树 ， 这 棵 树 保持 着 这 样 一 个 属 
性 : 左 子 树 中 的 所 有 块 都 放 在 较 小 的 地 址 处 ， 而 右 子 树 中 的 所 有 块 都 放 在 较 大 的 地 址 处 。 如 图 
9-53 所 示 ， 这 就 要 求 每 个 已 分 配 块 的 头 部 里 有 两 个 附加 字段 (left 和 right)。 每 个 字段 指向 
某 个 已 分 配 块 的 头 部 。 
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图 9-53 一 棵 已 分 配 块 的 平衡 树 中 的 左右 指针 


isPtr (ptr p) 函数 用 树 来 执行 对 已 分 配 块 的 二 分 查找 。 在 每 一 步 中 ， 它 依赖 于 块头 部 中 
的 大 小 字段 来 判断 p 是 否 落 在 这 个 块 的 范围 之 内 。 

平衡 树 方 法 保证 会 标记 所 有 从 根 节点 可 达 的 节点 ， 从 这 个 意义 上 来 说 它 是 正确 的 。 这 是 一 
个 必要 的 保证 ， 因 为 应 用 程序 的 用 户 当然 不 会 喜欢 把 他 们 的 已 分 配 块 过 早 地 返回 给 空闲 链表 。 
然而 ， 这 种 方法 从 某 种 意义 上 而 言 又 是 保守 的 ， 因 为 它 可 能 不 正确 地 标记 实际 上 不 可 达 的 块 ， 
因此 它 可 能 不 会 释放 某 些 垃圾 。 虽 然 这 并 不 影响 应 用 程序 的 正确 性 ， 但 是 这 可 能 导致 不 必要 的 
外 部 碎片 。 

C 程序 的 Mark&Sweep 收集 器 必须 是 保守 的 ， 其 根本 原因 是 C 语 言 不 会 用 类 型 信息 来 标记 
存储 器 位 置 。 因 此 ， 像 int 或 者 float 这 样 的 标量 可 以 伪装 成 指针 。 例 如 ， 假 设 某 个 可 达 的 已 
分 配 块 在 它 的 有 效 载荷 中 包含 一 个 int， 其 值 碰巧 对 应 于 某 个 其 他 已 分 配 块 b 的 有 效 载 荷 中 的 
一 个 地 址 。 对 收集 器 而 言 ， 是 没有 办 法 推断 出 这 个 数据 实际 上 是 int 而 不 是 指针 的 。 因 此 ， 分 
配器 必须 保守 地 将 块 b 标记 为 可 达 ， 尽 管事 实 上 它 可 能 是 不 是 可 达 的 。 


9.11 C 程序 中 常见 的 与 存储 器 有 关 的 错误 


对 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 存储 器 可 能 是 个 困难 的 、 容 易 出 错 的 任务 。 与 存储 器 有 
关 的 错误 属于 那些 最 令 人 惊恐 的 镜 误 ， 因 为 它们 在 时 间 和 空间 上 ， 经 常 是 在 距 错误 源 一 段 距 离 
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之 后 才 表 现 出 来 。 将 错误 的 数据 写 到 错误 的 位 置 ， 你 的 程序 可 能 在 最 终 失 败 之 前 运行 了 好 几 个 小 
时 ， 且 使 程序 中 止 的 位 置 距离 错误 的 位 置 已 经 很 远 了 。 我 们 用 一 些 常见 的 与 存储 器 有 关 的 错误 的 
讨论 ， 来 结束 对 虚拟 存储 器 的 讨论 。 
9.11.1 间接 引用 坏 指 针 

正如 我 们 在 9.7.2 节 中 学 到 的 ， 在 进程 的 虚拟 地 址 空间 中 有 较 大 的 洞 ， 没 有 映射 到 任何 有 
意义 的 数据 。 如 果 我 们 试图 间接 引用 一 个 指向 这 些 洞 的 指针 ， 那 么 操作 系统 就 会 以 段 异常 中 止 
我 们 的 程序 。 而 且 ， 虚 拟 存储 器 的 某 些 区 域 是 只 读 的 。 试 图 写 这 些 区 域 将 会 以 保护 异常 中 止 这 
个 程序 。 

间接 引用 坏 指 针 的 一 个 常见 示例 是 经 典 的 scanf 错误 。 假 设 我 们 想 要 使 用 scanf 从 
stdin 读 一 个 整数 到 一 个 变量 。 正 确 的 方法 是 传递 给 scanf 一 个 格式 串 和 变量 的 地 址 : 


scanf ("%d", &val) 
然而 ， 对 于 C 程序 初学 者 而 言 (对 有 经 验 者 也 是 如 此 )， 很 容易 传递 val 的 内 容 ， 而 不 是 它 的 地 址 
scanf ("%d", val) 


在 这 种 情况 下 ，scanf 将 把 val 的 内 容 解释 为 一 个 地 址 ， 并 试图 将 一 个 字 写 到 这 个 位 置 。 在 最 
好 的 情况 下 ， 程 序 立即 以 异常 中 止 。 在 最 糟糕 的 情况 下 ，val 的 内 容 对 应 于 虚拟 存储 器 的 某 个 合 
法 的 读 / 写 区 域 ， 于 是 我 们 就 覆盖 了 存储 器 ， 这 通常 会 在 相当 长 的 一 段 时 间 以 后 造成 灾难 性 的 、 
令 人 困惑 的 后 果 。 
9.11.2 ” 读 未 初始 化 的 存储 器 

虽然 bss 存储 器 位 置 〈 诸 如 未 初始 化 的 全 局 C 变量 ) 总 是 被 加 载 器 初始 化 为 零 ， 但 是 对 于 堆 
存储 器 却 并 不 是 这 样 的 。 一 个 常见 的 错误 就 是 假设 堆 存 储 器 被 初始 化 为 零 : 
/* Return y = Ax */ 
int *matvec(int **A, int *x, int n) 


{ 


int i, j; 


int *y = (int *)Malloc(n * sizeof (int)); 


for (i = 0; i < n; i++) 

9 for (j = 0; j < n; j++) 

10 ~ y[li] += A[i] [j] * x[j]; 
11 .| return y; 


“12 } 


在 这 个 示例 中 ， 程 序 员 不 正确 地 假设 向 量 y 被 初始 化 为 零 。 人 y[i] 设 
置 为 零 ， 或 者 使 用 calloc。 
9.11.3 ”允许 栈 缓冲 区 溢出 | | 

正如 我 们 在 3.12 节 中 看 到 的 ， 如 果 一 个 程序 不 检查 输入 串 的 大 小 就 写 人 栈 中 的 目标 缓冲 
区 ， 那 么 这 个 程序 就 会 有 缓冲 区 溢出 错误 (buffer overflow bug)。 例 如 ， 下 面 的 函数 就 有 缓冲 区 
溢出 错误 ， 因 为 gets 函数 捞 贝 一 个 任意 长 度 的 串 到 缓冲 区 。 为 了 纠正 这 个 错误 ， 我 们 必须 使 用 
fgets 函数 ， 这 个 函数 限制 了 输入 串 的 大 小 : 

1 void bufoverf low() 


2 
3 char buf [64] ; 
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gets(buf); /+ Here is the es buffer overflow bug */ 
6 return,; 
2 二 
9.11.4 ”假设 指针 和 它们 指 回 的 对 象 是 相同 大 小 的 
一 种 常见 的 错误 是 假设 指向 对 象 的 指针 和 它们 所 指向 的 对 象 是 相同 大 小 的 : 


/* Create an nxm array +/ 


1 

2 int **makeArrayi(int n, int m) 

3 

4 int 工 ; 

5 int **A = (int **)Malloc(n * sizeof (int)); 
6 

yy for (i = 0; i < n; i++) 

8 A[i] = (int *)Malloc(m * sizeof (int)); 
; return A; 
10 + 


这 里 的 目的 是 创建 一 个 由 个 指针 组 成 的 数组 ， 每 个 指针 都 指向 一 个 包含 m 个 int 的 数组 。 然 
而 ， 因 为 程序 员 在 第 5 行将 sizeof (int *) 写成 了 sizeof (int)， 代 码 实际 上 创建 的 是 一 个 
int 的 数组 。 

这 段 代码 只 有 在 int 和 指向 int 的 指针 大 小 相同 的 机 器 上 运行 良好 。 但 是 ， 如 果 我 们 在 像 
Core i7 这 样 的 机 器 上 运行 这 段 代 码 ， 其 中 指针 大 于 int， 那 么 第 7 行 和 第 8 行 的 循环 将 写 到 超 
出 A 数组 结尾 的 地 方 。 因 为 这 些 字 中 的 一 个 很 可 能 是 已 分 配 块 的 边界 标记 脚 部 ， 所 以 我 们 可 能 
不 会 发 现 这 个 错误 ， 直 到 我 们 在 这 个 程序 的 后 面 很 入 释放 这 个 块 时 ， 此 时 ， 分 配器 中 的 合并 代码 
会 戏剧 性 地 失败 ， 而 没有 任何 明显 的 原因 。 这 是 “在 远 处 起 作用 ”(action at distance) 的 一 个 隐 
密 示例 ， 这 类 “在 远 处 起 作用 ”是 与 存储 器 有 关 的 编程 错误 的 典型 情况 。 

9.11.5 ”造成 错位 错误 
错位 (Off-by-one) 错误 是 男 一 种 很 常见 的 覆盖 错误 来 源 : 


/* Create an nxm array */ 


1 

2 int **makeArray2(int n, int m) 

3 

4 int i; 

5 int **A = (int **)Malloc(n * sizeof (int *)); 
6 

7 for (i = 0; i <= n; i++) 

8 A[i] = (int *)Malloc(m * sizeof (int)); 

9 return A; 

10 


这 是 前 面 一 节 中 的 程序 的 另 一 个 版 本 。 这 里 我 们 在 第 5 行 创建 了 一 个 n 个 元 素 的 指针 数组 ， 但 是 
随后 在 第 7 行 和 第 8 行 试图 初始 化 这 个 数组 的 n+ 1 个 元 素 ， 在 这 个 过 程 中 覆盖 了 A 数组 后 面 的 
某 个 存储 器 。 
9.11.6 引用 指针 ， 而 不 是 它 所 指向 的 对 象 | 

如 果 不 太 注意 C 操作 符 的 优先 级 和 结合 性 ， 我 们 就 会 错误 地 操作 指针 ， 而 不 是 指针 所 指向 
的 对 象 。 比 如 ， 考 虑 下 面 的 函数 ， 其 目的 是 删除 一 个 有 *size 项 的 二 又 堆 里 的 第 一 项 ， 然 后 对 
剩 下 的 *size-1l 项 重新 建 堆 : 
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int *binheapDelete(int **binheap, int *size) 


2 1 

3 int *packet = binheap[0] ; 

4 

5 binheap[0] = binheap[*size - 1]; 

6 *size-—-; /+ This should be (xsize)~-- */ 
7 heapify(binheap, *size, 0); 

8 return(Packet) ; 

9 } 


在 第 6 行 ， 目 的 是 减少 size 指针 指向 的 整数 的 值 。 然 而 ， 因 为 一 元 运算 符 -- 和 * 的 优先 级 
相同 ， 从 右 问 左 结合 ， 所 以 第 6 行 中 的 代码 实际 减少 的 是 指针 自己 的 值 ， 而 不 是 它 所 指向 的 
整数 的 值 。 如 果 幸 和 运 地 话 ， 程 序 会 立即 失败 ; 但 是 更 有 可 能 发 生 的 是 ， 当 程序 在 执行 过 程 后 
很 久 才 产生 出 一 个 不 正确 的 结果 时 ， 我 们 只 有 一 头 的 雾 水 。 这 里 的 原则 是 当 你 对 优先 级 和 结 
合 性 有 疑问 的 时 候 ， 就 应 该 使 用 括号 。 比 如 ， 在 第 6 行 ， 我 们 可 以 使 用 表达 式 ， 清 晰 地 表明 
我 们 的 意图 。 
9.11.7 误解 指针 运算 

男 一 种 常见 的 错误 是 起 记 了 指针 的 算术 操作 是 以 它们 指向 的 对 和 象 的 大 小 为 单位 来 进行 的 ， 而 
这 种 大 小 单位 并 不 一 定 是 字 节 。 例 如 ， 下 面 函 数 的 目的 是 扫描 一 个 int 的 数组 ， 并 返回 一 个 指 
针 ， 指 向 val 的 首次 出 现 : 


int *search(int *p, int val) 


1 

2 

3 While (*p && *p != val) 

4 P += sizeof(int); /+ Should be p++ */ 
5 return p; | 

6 3 


然而 ， 因 为 每 次 循环 时 ， 第 4 行 都 把 指针 加 了 4 (一 个 整数 的 字 节 数 )， 函 数 就 不 正确 地 扫描 数 
组 中 每 4 个 整数 。 
9.11.8 引用 不 存在 的 变量 

没有 太 多 经 验 的 C 程序 员 不 理解 栈 的 规则 ， 有 时 会 引用 不 再 合法 的 本 地 变量 ， 如 下 列 所 示 ， 


1 int *stackref () 
2 

3 int val; 
4 

5 


return &val; 


6 


这 个 函数 返回 一 个 指针 〈 如 P)， 指 向 栈 里 的 一 个 局 部 变量 ， 然 后 弹出 它 的 栈 帧 。 尽 管 p 仍然 指 

向 一 个 合法 的 存储 器 地 址 ， 但 是 它 已 经 不 再 指向 一 个 合法 的 变量 了 。 当 以 后 在 程序 中 调用 其 他 函 

数 时 ， 存 储 器 将 重用 它们 的 栈 帧 。 再 后 来 ， 如 果 程 序 分 配 某 个 值 给 *p， 那 么 它 可 能 实际 上 正在 

修改 另 一 个 函数 的 栈 帧 中 的 一 个 条 目 ， 从 而 潜在 地 带 来 灾难 性 的 、 令 人 困惑 的 后 果 。 

9.11.9 引用 空闲 堆 块 中 的 数据 
一 个 相似 的 错误 是 引用 已 经 被 释放 了 的 堆 块 中 的 数据 。 例 如 ， 考 虑 下 面 的 示例 ， 这 个 示例 在 

第 6 行 分 配 了 一 个 整数 数组 x， 在 第 10 行 中 先 释 放 了 块 x， 然 后 在 第 14 行 中 又 引用 了 它 : 
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1 int *heapref (int n, int m) 
和 
3 int i; 
4 int *x, *y; 
5 
6 x = (int *)Malloc(n * sizeof(int)); 
, , 
8 /* ... */  /* Dther calls to malloc and free go here */ 
9 
10 free (X) ; 
1i 
12 y = (int *)Mal#oc(m * sizeof (int)); 
13 for (i = 0; i < m; i++) 
14 y[i] = x[ij++; /* Oops! x[i] is a word in a free block */ 
15 . 
16 return y ; 
i7 


取决 于 在 第 6 行 和 第 10 行 发 生 的 malloc 和 free 的 调用 模式 ， 当 程序 在 第 14 行 引用 x[i] 
时 ， 数 组 x 可 能 是 某 个 其 他 已 分 配 堆 块 的 一 部 分 了 ， 因 此 其 内 容 被 重 写 了 。 和 其 他 许多 与 存储 
器 有 关 的 错误 一 样 ， 这 个 错误 只 会 在 程序 执行 的 后 面 ， 当 我 们 注意 到 y 中 的 值 被 破坏 了 时 才 会 
显现 出 来 。 
9.11.10 引起 存储 器 泄漏 

存储 器 泄漏 是 缓慢 、 隐 性 的 杀手 ， 当 程序 员 不 小 心 忘记 释放 已 分 配 块 ， 而 在 堆 里 创建 了 垃 专 
时 ， 会 发 生 这 种 问题 。 例 如 ， 下 面 的 函数 分 配 了 一 个 堆 块 x， 然 后 不 释放 它 就 返回 : 


void leak(int n) 
{ 


int *x = (int *)Malloc(n * sizeof (int)); 


1 
2 
4 , 
5 return; /+* x TS garbage at this Point */ 
6 


} 
如 果 经 常 调用 leak， 那 么 渐渐 地 ， 堆 里 就 会 充满 了 垃圾 ， 在 最 糟糕 的 情况 下 ， 会 占用 整个 


虚拟 地 址 空间 。 对 于 像 守护 进程 和 服务 器 这 样 的 程序 来 说 ， 存 储 器 泄漏 是 特别 严重 的 ， 根 据 定义 
这 些 程序 是 不 会 终止 的 。 


9.12 小 结 


虚拟 存储 器 是 对 主 存 的 一 个 抽象 。 支 持 虚 拟 存储 器 的 处 理 器 通过 使 用 一 种 叫做 虚拟 寻 址 的 间 
接 形式 来 引用 主 存 。 处 理 器 产生 一 个 虚拟 地 址 ， 在 被 发 送 到 主 存 之 前 ， 这 个 地 址 被 翻译 成 一 个 物 
理 地 址 。 从 虚拟 地 址 空间 到 物理 地 址 空间 的 地 址 翻译 要 求 硬件 和 软件 紧密 合作 。 专 门 的 硬件 通过 
使 用 页 表 来 翻译 虚拟 地 址 ， 而 页 表 的 内 容 是 由 操作 系统 提供 的 。 

虚拟 存储 器 提供 三 个 重要 的 功能 。 第 一 ， 它 在 主 存 中 上 自动 缓存 最 近 使 用 的 存放 磁盘 上 的 虚拟 
地 址 空间 的 内 容 。 虚 拟 存 储 器 缓存 中 的 块 叫 做 页 。 对 磁盘 上 页 的 引用 会 触发 缺 页 ， 缺 页 将 控制 转 
移 到 操作 系统 中 的 一 个 缺 页 处 理 程序 。 缺 页 处 理 程 序 将 页 面 从 磁盘 拷贝 到 主 存 缓存 ， 如 果 必 要 ， 
将 写 回 锌 驱逐 的 页 。 第 二 ， 虚 拟 存储 器 简化 了 存储 器 管理 ， 进 而 又 简化 了 链接 、 在 进程 间 共 享 数 
据 、 进 程 的 存储 器 分 配 以 及 程序 加 载 。 最 后 ， 虚 拟 存储 器 通过 在 每 条 页 表 条 目 中 加 入 保护 位 ， 从 
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而 了 简化 了 存储 器 保护 。 

地 址 翻译 的 过 程 必 须 和 系统 中 所 有 的 硬件 缓存 的 操作 集成 在 二 起 。 大 多 数 页 表 条 目 位 于 LIl 
高 速 缓存 中 ， 但 是 一 个 称 为 TLB 的 页 表 条 目的 片上 高 速 缓存 ， 通 常会 消除 访问 在 LI 上 的 页 表 条 
目的 开销 。 

现代 系统 通过 将 虚拟 存储 器 片 和 磁盘 上 的 文件 片 关联 起 来 ， 以 初始 化 虚拟 存储 器 片 ， 这 个 过 
程 称 为 存储 器 上 映射。 存储 器 映射 为 共享 数据 、 创 建新 的 进程 以 及 加 载 程序 提供 了 一 种 高 效 的 机 
制 。 应 用 可 以 使 用 mmap 函数 来 手工 地 创建 和 删除 虚拟 地 址 空间 的 区 域 。 然 而 ， 大 多 数 程序 依赖 
于 动态 存储 器 分 配器 ， 例 如 malloc， 它 管理 虚拟 地 址 空间 区 域内 一 个 称 为 堆 的 区 域 。 动 态 存储 
器 分 配器 是 一 个 感觉 像 系统 级 程序 的 应 用 级 程序 ， 它 直接 操作 存储 器 ， 而 无 需 类 型 系统 的 很 多 帮 
助 。 分 配器 有 两 种 类 型 。 显 式 分 配器 要 求 应 用 显 式 地 释放 它们 的 存储 器 块 。 隐 式 分 配器 (垃圾 收 
集 器 ) 目 动 释放 任何 未 使 用 的 和 不 可 达 的 块 。 

对 于 C 程 序 员 来 说 ， 管 理 和 使 用 虚拟 存储 器 是 一 件 困难 和 容易 出 错 的 任务 。 常 见 的 错误 示 
例 包括 : 间接 引用 坏 指 针 ， 读 取 未 初始 化 的 人 存储器， 允许 栈 缓冲 区 溢出 ， 假 设 指针 和 它们 指向 的 
对 象 大 小 相同 ， 引 用 指针 而 不 是 它 所 指向 的 对 象 ， 误 解 指针 运算 ， 引 用 不 存在 的 变量 ， 以 及 引起 
存储 器 泄漏 。 + 
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家 庭 作业 


*9.11 在 下 面 的 一 系列 问题 中 ， 你 要 展示 9.6.4 节 中 的 示例 存储 器 系统 如 何 将 虚拟 地 址 翻译 成 物理 地 址 ， 以 
及 如 何 访 问 缓 存 。 对 于 给 定 的 虚拟 地 址 ， 请 指出 访问 的 TLB 条 目 、 物 理 地 址 ， 以 及 返回 的 缓存 字 节 
值 。 请 指明 是 否 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 是 否 发 生 了 缓存 不 命中 。 如 果 有 缓存 不 命中 ， 对 于 
“返回 的 缓存 字 节 ” 用 “一 ”来 表示 。 如 果 有 缺 页 ， 对 于 “PPN” 用 “一 ”来 表示 ， 而 C 部 分 和 D 部 
分 就 空 着 。 
虚拟 地 址 : 0x027c 
A. 虚拟 地 址 格式 


13 12 11 10 9 8 7 6 5 4 3 2 1 0 


Www.lopSage.com 
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B. 地 址 翻译 


TLB 命中 ? (是 / 否 ) 


缺 页 ? (是 / 否 ) 





C. 物理 地 址 格式 


D. 物理 地 址 引用 


返回 的 缓存 字 节 





*9.12 对 于 下 面 的 地 址 ， 重 复习 题 9.11 : 
虚拟 地 址 ; 0x03a9 
A. 虚拟 地 址 格式 
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D. 物理 地 址 引用 







字 节 偏 移 


| 缓存 索引 
缓存 命中 ? (是 / 否 ) 
返回 的 缓存 字 节 
*9.13 ”对 于 下 面 的 地 址 ， 重 复习 题 9.11 : z 


虚拟 地 址 : 0x0040 
A. 虚拟 地 址 格式 






B. 地 址 翻译 


E 
缺 页 ? (是 / 否 ) 


C. 物理 地 址 格式 
















D. 物理 地 址 引用 







字 节 偏 移 


Ce 
ar 
ae | 
ar | 
ar 


*#9.14 假设 有 一 个 输入 文件 hello.txt， 由 字符 串 “Hello， worldlNn” 组 成 ， 编 写 一 个 C 程序 ， 使 
用 mmap 将 hello.txt 的 内 容 改 变 为 “Jel1lo，worldlNn?”。 

*9.15 ”确定 下 面 的 malloc 请 求 序列 得 到 的 块 大 小 和 头 部 值 。 假 设 : 1) 分 配器 维持 双 字 对 齐 ， 使 用 隐 式 空 
闲 链表 ， 以 及 图 9-35 中 的 块 格式 。2) 块 大 小 向 上 合 入 为 最 接近 的 8 字 节 的 倍数 。 
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决 大 小 《十进制 字 节 ) 块头 部 〈 十 六 进 制 ) 


malloc (3) 













malloc (20) 
malloc (21) 


*9.16 确定 下 面 对 齐 要 求 和 块 格式 的 每 个 组 合 的 最 小 块 大 小 。 假 设 : 显 式 空闲 链表 、 每 个 空闲 块 中 有 四 字 
节 的 pred 和 succ 指针 、 不 允许 有 效 载荷 的 大 小 为 零 ， 并 且 头 部 和 脚 部 存放 在 一 个 四 字 节 的 字 中 。 


| 
| | 
| | | 
六 9.17 开发 9.9.12 节 中 的 分 配器 的 一 个 版 本 ， 执 行 下 一 次 适 配 搜索 ， 而 不 是 首次 适 配 搜 索 。 
六 9.18 9.9.12 节 中 的 分 配器 要 求 每 个 块 既 有 头 部 也 有 脚 部 ， 以 实现 常数 时 间 的 合并 。 修 改 分 配器 ， 使 得 空 
闲 块 需要 头 部 和 脚 部 ， 而 已 分 配 块 只 需要 头 部 。 
*9.19 下 面 给 出 了 三 组 关于 存储 器 管理 和 垃圾 收集 的 陈述 。 在 每 一 组 中 ， 只 有 一 名 陈述 是 正确 的 。 你 的 任 
务 就 是 判断 哪 一 名 是 正确 的 。 
1) a) 在 一 个 伙伴 系统 中 ， 最 高 可 达 50% 的 空间 可 以 因为 内 部 碎片 而 被 浪费 了 。 
b) 首次 适 配 存储 器 分 配 算法 比 最 佳 适 配 算法 要 慢 一 些 〈 平 均 而 言 )。 
c) 只 有 当空 闲 链表 按照 存储 器 地 址 递增 排序 时 ， 使 用 边界 标记 来 回收 才 会 快速 。 
d) 伙伴 系统 只 会 有 内 部 碎片 ， 而 不 会 有 外 部 碎片 。 
2) a) 在 按照 块 大 小 递减 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 会 导致 分 配 性 能 很 低 ， 但 是 可 
以 避免 外 部 碎片 。 . 
b) 对 于 最 佳 适 配方 法 ， 空 闲 块 链表 应 该 按照 存储 器 地 址 的 递增 顺序 排序 。 
c) 最 佳 适 配 方法 选择 与 请 求 段 匹配 的 最 大 的 空闲 块 。 
d) 在 按照 块 大 小 递增 的 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 与 使 用 最 佳 适 配 算法 等 价 。 
3) Mark&Sweep 垃圾 收集 占 在 下 列 哪 种 情况 下 叫做 保守 的 : z 
a) 它们 只 有 在 存储 器 请 求 不 能 被 满足 时 才 合 并 被 释放 的 存储 器 。 
b) 它们 把 一 切 看 起 来 像 指针 的 东西 都 当做 指针 。 
c) 它们 只 在 存储 器 用 尽 时 ， 才 执行 垃圾 收集 。 
d) 它们 不 有 释放 形成 循环 链表 的 存储 器 块 。 
**9.20 编写 你 自己 的 malloc 和 free 版 本 ， 将 它 的 运行 时 间 和 空间 利用 率 与 标准 C 库 提供 的 malloc 版 
本 进行 比较 。 








练习 题 答案 


练习 题 9.1 这 道 题 让 你 对 不 同 地 址 空间 的 大 小 有 了 些 了 解 。 曾 几何 时 ， 一 个 32 位 地 址 空间 看 上 去 似乎 是 
无 法 想象 的 大 。 但 是 ， 现 在 有 些 数据 库 和 科学 应 用 需要 更 大 的 地 址 空间 ， 而 且 你 会 发 现 这 种 趋势 会 继续 。 
在 你 的 有 生 之 年 ， 你 可 能 会 抱怨 你 的 个 人 电脑 上 那 狭 促 的 64 位 地 址 空间 ! 
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# 虚拟 地 址 位 (n) # 虚拟 地 址 CN) 最 大 可 能 的 虚拟 地 址 


2 =256 2 一 1] = 255 


2 = 64K 2—1=64K-1 


22 = 4G 22—1=4G-—1 
2% = 256T 2%=256T—1 
24= 16 384P 2%—1=16384P—1 





练习 题 9.2 因为 每 个 虚拟 页 面 是 P=2? 字 节 ， 所 以 在 系统 中 总 共有 2"/2? = 2"2 个 可 能 的 页 面 ， 其 中 每 个 都 
需要 一 个 页 表 条 目 (PTE)。 





练习 题 9.3 为 了 完全 掌握 地 址 翻译 ， 你 需要 很 好 地 理解 这 类 问题 。 下 面 是 如 何 解决 第 一 个 子 问题 : 我 们 有 
nn 二 32 个 虚拟 地 址 位 和 m=24 个 物理 地 址 位 。 页 面 大 小 是 P= 1KB， 这 意味 着 对 于 VPO 和 PPO， 我 们 都 需 
要 logs(1K)=10 位 。( 回 想 一 下 ，VPO 和 PPO 是 相同 的 。) 剩 下 的 地 址 位 分 别 是 VPN 和 PPN。 


2 po rn oR 


1KB 10 
11 
12 
13 


练习 题 9.4 做 一 些 这 样 的 手工 模拟 ， 能 很 好 地 丽 固 你 对 地 址 翻译 的 理解 。 你 会 发 现 写 出 地 址 中 的 所 有 的 
位 ， 然 后 在 不 同 的 位 字段 上 画 出 方 框 ， 例 如 VPN、TLBI 等 ， 这 会 很 有 帮助 。 在 这 个 特殊 的 练习 中 ， 没 有 任 
何 类 型 的 不 命中 : TLB 有 一 份 PTE 的 拷贝 ， 而 缓存 有 一 份 所 请 求 数据 字 的 拷贝 。 SO 一 些 
不 同 的 组 合 ， 请 参见 习题 9.11、9.12 和 9.13。 

A.00 0011 1101 0111 

B. 





TLB 索引 


TLB 标记 

TLB 命中 ? (是 / 否 ) 
缺 页 ? (是 / 否 ) 
PPN 





C.0011 0101 0111 
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CI 


CT 
高 速 缓存 命中 ? (是 / 否 ) 
高 速 缓 存 字 节 返回 





练习 题 9.5 解决 这 个 题目 将 帮助 你 很 好 地 理解 存储 器 映射 。 请 自己 独立 完成 这 道 题 。 我 们 没有 讨论 
open、 fstat 或 者 write 函数 ， 所 以 你 需要 阅读 它们 的 帮助 页 来 看 看 它们 是 如 何 工 作 的 。 


code/ ym/mmapcopy.c 
1  #include "csapp.h" 
2 
3 
4 * mmapcopy -~ uses mmap to Copy file fd to stdout 
5 */ 
6 void mmapcopy(int fd, int size) 
7 1 
8 char *bufp; /* Pointer to memory mapped VM area */ 
9 
10 bufp = Mmap (NULL, size, PROT_READ, MAP_PRIVATE, fd, 0); 
11 Write(1, bufp, size); 
12 return; 
13 + 
14 
15  /* mmapcopy driver */ 
16 int main(int argc, char **argv) 
i :地 
18 struct stat Stat ; 
19 int fd; 
20 z 
21 /xx Check for required command line argument */ 
22 if¥ (argc != 2) { , 
23 printf("usage: %s <filename>\n", argv[0]); 
24 exit (0)， 
25 } 
206 
27 /* Copy the input argument to stdout */ 
28 fd = Open(argv[1] , 0_RDONLY, 0); 
29 fstat(fd, &stat); 
30 mmapcopy (fd, stat.st_size); 
31 exit(0); 
32 } 
code/vm/mmapcopy.c 


练习 题 9.6 ”这 道 题 触 及 了 一 些 核心 的 概念 ， 例 如 对 齐 要 求 、 最 小 块 大 小 以 及 头 部 编码 。 确 定 块 大 小 的 一 般 
方法 是 ， 将 所 请 求 的 有 效 载荷 和 头 部 大 小 的 和 含 入 到 对 齐 要 求 〈 在 此 例 中 是 8 字 节 ) 最 近 的 整数 倍 。 比 如 ， 
malloc (1) 请 求 的 块 大 小 是 4+1=S， 然 后 合 入 到 8。 而 malloc (13) 请 求 的 块 大 小 是 13+4=17， 合 
入 到 24。 
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块 大 小 十 进 制 字 节 ) 块头 部 十 六 进 制 ) 


malloc(1) 


malloc(5) 
malloc(12) 





malloc(13) 


练习 题 9.7 最 小 块 大 小 对 内 部 碎片 有 显著 的 影响 。 因 此 ， 理 解 和 不 同 分 配器 设计 和 对 齐 要 求 相 关联 的 最 小 
块 大 小 是 很 好 的 。 很 有 技巧 的 一 部 分 是 ， 要 意识 到 相同 的 块 可 以 在 不 同时 刻 被 分 配 或 者 被 释放 。 因 此 ， 最 
小 决 大 小 就 是 最 小 已 分 配 块 大 小 和 最 小 空闲 块 大 小 两 者 的 最 大 值 。 例 如 ， 在 最 后 一 个 子 问题 中 ， 最 小 的 已 
分 配 块 大 小 是 一 个 4 字 节 头 部 和 一 个 1 字 节 有 效 载荷 ， 舍 入 到 8 字 节 。 而 最 小 空闲 块 的 大 小 是 一 个 4 字 节 
的 头 部 和 一 个 4 字 节 的 脚 部 ， 加 起 来 是 8 字 节 ， 已 经 是 8 的 倍数 ， 就 不 需要 再 合 入 了 。 所 以 ， 这 个 分 配器 
的 最 小 块 大 小 就 是 8 字 节 。 


单字 头 部 和 脚 部 头 部 和 脚 部 
单字 头 部 ， 但 是 没有 脚 部 头 部 和 脚 部 


双 字 头 部 和 脚 部 头 部 和 脚 部 
双 字 头 部 ， 但 是 没有 脚 部 头 部 和 脚 部 





练习 题 9.8 ”这 里 没有 特别 的 技巧 。 但 是 解答 此 题 要 求 你 理解 简单 的 隐 式 链表 分 配器 的 剩余 部 分 是 如 何 工作 
的 ， 是 如 何 操作 和 遍历 块 的 。 


code/ vm/malloc/mmi.c 

1 static void *find_fit(size_t asize) 

2 "和 

3 /x* First fit search */ 

! void *bp; 

5 

6 for (bp = heap_listp; GET_SIZE(HDRP(bp)) > 0; bp = NEXT_BLKP (bp)) { 
7 if (!GET_ALLOC(HDRP(bp)) && (asize <= GET_SIZE(HDRP(bp)))) { 

8 return bp ; 

9 } 

10 } 
11 return NULL; /* No fit */ 

i2 } 


code/vm/malloc/mm.c 


练习 题 9.9 这 又 是 一 个 帮助 你 熟悉 分 配器 的 热身 练习 。 注 意 对 于 这 个 分 配器 ， 最 小 块 大 小 是 16 字 节 。 如 
果 分 割 后 剩 下 的 块 大 于 或 者 等 于 最 小 块 大 小 ， 那 么 我 们 就 分 割 这 个 块 〈 第 6 一 10 行 )。 这 里 唯一 有 技巧 的 
部 分 是 要 意识 到 在 移动 到 下 一 块 之 前 (第 8 行 )， 你 必须 放置 新 的 已 分 配 块 (第 6 行 和 第 7 行 )。 


code/vm/malloc/mm.c 
1 static void place(void *bp, size_t asize) 
2 攻 
3 size_t csize = GET_SIZE(HDRP(bp) ) ; 
5 if ((csize - asize) >= (2*DSIZE)) { 


PUT(HDRP (bp), PACK(asize, 1)); 
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7 PUT(FTRP (bp), PACK(asize, 1)); 

8 bp = NEXT_BLKP (bp); 

9 PUT(HDRP (bp), PACK(csize-asize, 0)); 
10 | PUT(FTRP (bp), PACK(csize-asize, 0)); 
1 } 

12 else +{ 

13 PUT(HDRP (bp), PACK (csize, 1)); 

14 PUT(FTRP (bp), PACK(csize, 1)); 

15 } 

16 J 


code/vm/malloc/mm.c 


练习 题 9.10 这 里 有 一 个 会 引起 外 部 碎片 的 模式 : 应 用 对 第 一 个 大 小 类 做 大 量 的 分 配 释 放 请 求 ， 然 后 对 
第 二 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 接 下 来 是 对 第 三 个 大 小 类 做 大 量 的 分 配 释 放 请 求 ， 以 此 类 推 。 
对 于 每 个 大 小 类 ， 分 配器 都 创建 了 许多 不 会 被 回收 的 存储 器 ， 因 为 分 配器 不 会 合并 ， 也 因为 应 用 不 会 再 向 
这 个 大 小 类 再 次 请 求 块 了 。 
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Computer Systems : A Programmer s Perspective，2E | 


程序 间 的 交 互 和 通信 


我 们 学 习 计算 机 系统 到 现在 ， 一 直 假 设 程序 是 独立 运行 的 ， 只 包含 最 
小 限度 的 输入 和 输出 。 然 而 ， 在 现实 世界 里 ， 应 用 程序 利用 操作 系统 提供 
的 服务 来 与 IO 设备 及 其 他 程序 通信 。 

本 书 的 这 一 部 分 将 使 你 了 解 Unix 操作 系统 提供 的 基本 IO 服务 ， 以 及 
如 何 用 这 些 服务 来 构造 应 用 程序 ， 例 如 Web 客户 端 和 服务 器 ， 它 们 是 通过 
Internet 彼此 通信 的 。 你 将 学 习 编写 诸如 Web 服务 器 这 样 的 可 以 同时 为 多 个 
客户 端 提供 服务 的 并 发 程序 。 编 写 并 发 应 用 程序 还 能 使 程序 在 现代 多 核 处 
理 器 上 执行 得 更 快 。 当 你 学 完了 这 个 部 分 ， 你 将 逐渐 变 成 一 个 很 牛 的 程序 
员 ， 对 计算 机 系统 以 及 它们 对 程序 的 影响 有 很 成 熟 的 理解 。 
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系统 级 |/O 


输入 /输出 (1/O) 是 在 主 存 和 外 部 设备 (如 磁盘 驱动 器 、 终 端 和 网 络 ) 之 间 拷 贝 数据 的 过 
程 。 输 入 操作 是 从 VO 设备 拷贝 数据 到 主 存 ， 而 输出 操作 是 从 主 存 拷贝 数据 到 IO 设备 。 

所 有 语言 的 运行 时 系统 都 提供 执行 IO 的 较 高 级 别 的 工具 。 例 如 ，ANSI C 提供 标准 IO 库 ， 
包含 像 printf 和 scanf 这 样 执行 带 缓冲 区 的 IO 函数 。C++ 语言 用 它 的 重 载 操作 符 << (输入) 
和 >> (输出 ) 提供 了 类 似 的 功能 。 在 Unix 系统 中 ， 是 通过 使 用 由 内 核 提供 的 系统 级 Unix IO 函 
数 来 实现 这 些 较 高 级 别 的 IO 函数 的 。 大 多 数 时 候 ， 高 级 别 IO 函数 工作 良好 ， 没 有 必要 直接 使 
用 Unix WO。 那 么 为 什么 还 要 麻烦 地 学 习 Unix IO 呢 ? 

“了 解 Unix IO 将 帮助 你 理解 其 他 的 系统 概念 。IO 是 系统 操作 不 可 或 缺 的 一 部 分 ， 因 此 ， 

我 们 经 常 遇 到 IO 和 其 他 系统 概念 之 间 的 循环 依赖 。 例 如 ，LIO 在 进程 的 创建 和 执行 中 扮演 

着 关键 的 角色 。 反 过 来 ， 进 程 创 建 又 在 不 同 进程 间 的 文件 共享 中 扮演 着 关键 角色 。 因 此 ， 

要 真正 理解 1/O， 你 必须 理解 进程 ， 反 之 亦 然 。 在 对 存储 器 层次 结构 、 链 接 和 加 载 、 进 程 

以 及 虚拟 存储 器 的 讨论 中 ， 我 们 已 经 接触 了 IO 的 某 些 方面 。 既 然 你 对 这 些 概念 有 了 上 比较 

好 的 理解 ， 我 们 就 能 闭合 这 个 循环 ， 更 加 深入 地 研究 LO。 

“有 时 你 除了 使 用 Unix IO 以 外 别 无 选择 。 在 某 些 重要 的 情况 下 ， 使 用 高 级 IO 函数 不 太 可 

能 ， 或 者 不 太 合适 。 例 如 ， 标 准 IO 库 没 有 提供 读 取 文件 元 数据 的 方式 ， 如 文件 大 小 或 文 

件 创 建 时 间 。 另 外 ，LO 库 还 存在 一 些 问题 ， 使 得 用 它 来 进行 网 络 编程 非常 冒险 。 

这 一 章 介 绍 Unix VO 和 标准 IO 的 一 般 概念 ， 并 且 向 你 展示 在 C 程序 中 如 何 可 靠 地 使 用 它 
们 。 除 了 作为 一 般 性 的 介绍 之 外 ， 这 一 章 还 为 我 们 随后 学 习 网 络 编程 和 并 发 性 黄 定 坚实 的 基础 。 


10.1 Unix I/O 
一 个 Unix 文件 就 是 一 个 m 个 字 节 的 序列 : 
By, By, BB | z 
所 有 的 IO 设备 ， 如 网 络 、 磁 盘 和 终端 ， 都 被 模型 化 为 文件 ， 而 所 有 的 输入 和 输出 都 被 当做 对 相应 
文件 的 读 和 写 来 执行 。 这 种 将 设备 优雅 地 映射 为 文件 的 方式 ， 人 允许 Unix 内 核 引 出 一 个 简单 、 低 级 
的 应 用 接口 ， 称 为 Unix IO， 这 使 得 所 有 的 输入 和 输出 都 能 以 一 种 统一 且 一 致 的 方式 来 执行 : 
“ 打开 文件 。 一 个 应 用 程序 通过 要 求 内 核 打 开 相 应 的 文件 ， 来 宣告 它 想 要 访问 一 个 IO 设备 。 
内 核 返回 一 个 小 的 非 负 整数 ， 叫 做 描述 符 ， 它 在 后 续 对 此 文件 的 所 有 操作 中 标识 这 个 文 
件 。 内 核 记录 有 关 这 个 打开 文件 的 所 有 信息 。 应 用 程序 只 需 记 住 这 个 描述 符 。 

Unix 外 壳 创 建 的 每 个 进程 开始 时 都 有 三 个 打开 的 文件 : 标准 输入 描述 符 为 0)、 标 准 
输出 (描述 符 为 1) 和 标准 错误 (描述 符 为 2)。 头 文件 <unistd.h> 定义 了 常量 STDIN 
FILENO、STDOUT FILENO 和 STDERR FILENO， 它 们 可 用 来 代替 显 式 的 描述 符 值 。 

"改变 当前 的 文件 位 置 。 对 于 每 个 打开 的 文件 ， 内 核 保 持 着 一 个 文件 位 置 大 初始 为 0。 这 个 
文件 位 置 是 从 文件 开头 起 始 的 字 节 偏 移 量 。 应 用 程序 能 够 通过 执行 seek 操作 ， 显 式 地 设置 
文件 的 当前 位 置 为 k。 

“ 读 写 文件 。 一 个 读 操作 就 是 从 文件 拷贝 n > 0 个 字 节 到 存储 器 ， 从 当前 文件 位 置 大 开始 ， 
然后 将 £ 增 加 到 + n。 给 定 一 个 大 小 为 m 字 节 的 文件 ， 当 k 宇 m 时 执行 读 操 作 会 触发 一 
个 称 为 end-of-file (EOF) 的 条 件 ， 应 用 程序 能 检测 到 这 个 条 件 。 在 文件 结尾 处 并 没有 明确 
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的 “EOF 符号 ”。 
类 似 地 ， 写 操作 就 是 从 存储 器 拷贝 x > 0 个 字 节 到 一 个 文件 ， 从 当前 文件 位 置 上 开始 ， 

然后 更 新 。 

。 关 闭 文件 。 当 应 用 完成 了 对 文件 的 访问 之 后 ， 它 就 通知 内 核 关 闭 这 个 文件 。 作 为 响应 ， 内 

核 释 放 文 件 打开 时 创建 的 数据 结构 ， 并 将 这 个 描述 符 恢复 到 可 用 的 描述 符 池 中 。 无 论 一 个 

进程 因为 何 种 原因 终止 时 ， 内 核 都 会 关闭 所 有 打开 的 文件 并 释放 它们 的 存储 器 资源 。 


10.2 打开 和 关闭 文件 
进程 是 通过 调用 open 函数 来 打开 一 个 已 存在 的 文件 或 者 创建 一 个 新 文件 的 : 


#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl].h> 


int open(char *filename, int flags, mode_t mode) ; 


返回 : 若 成 功 则 为 新 文件 描述 符 ， 若 出 错 为 一 1。 





open 函数 将 filename 转换 为 一 个 文件 描述 符 ， 并 且 返 回 描述 符 数 字 。 返 回 的 描述 符 总 是 
在 进程 中 当前 没有 打开 的 最 小 描述 符 。flags 参数 指明 了 进程 打算 如 何 访问 这 个 文件 : 
。O_RDONLY : 只 读 。 
。O_WRONLY : 只 写 。 
。O RDWR : 可 读 可 写 。 
例如 ， 下 面 的 代码 说 明 如 何以 读 的 方式 打开 一 个 已 存在 的 文件 : 


fd = Open("foo.txt", O0_RDONLY, 0); 


flags 参数 也 可 以 是 一 个 或 者 更 多 位 掩 码 的 或 ， 为 写 提 供给 一 些 额 外 的 指示 : 
。O_CREAT ; 如 果 文 件 不 存在 ， 就 创建 它 的 一 个 截断 的 〈truncated) ( 空 ) 文件 。 
“。O_TRUNC : 如 果 文 件 已 经 存在 ， 就 截断 它 。 
. 0_APPEND , 在 每 次 写 操作 前 ， 设 置 文件 位 置 到 文件 的 结尾 处 。 

例如 ， 下 面 的 代码 说 明 的 是 如 何 打开 一 个 已 存在 文件 ， 并 在 后 面 添加 一 些 数据 : 


fd = Open("foo.txt'", O_WRONLY|O_APPEND, 0); 


mode 参数 指定 了 新 文件 的 访问 权限 位 。 这 些 位 的 符号 名 字 如 图 10-1 所 示 。 作 为 上 下 文 
的 一 部 分 ， 每 个 进程 都 有 一 个 umask， 它 是 通过 调用 umask 函数 来 设置 的 。 当 进程 通过 带 
某 个 mode 参数 的 open 函数 调用 来 创建 一 个 新 文件 时 ， 文 件 的 访问 权限 位 被 设置 为 mode & 
~umask。 例 如 ， 假 设 我 们 给 定 下 面 的 mode 和 umask 默认 值 : 


#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S, IROTHI1S- IWOTH 
#define DEF_UMASK S_IWGRP|S_IWOTH 


接 下 来 ， 下 面 的 做 码 片段 创建 一 个 新 文件 ， 文 件 的 拥有 者 有 读 写 权限 ， 而 所 有 其 他 的 用 户 都 有 读 
权限 : 


umasxk(DEF_UMASK) ; 
fd = Open("foo.txt", 0_CREAT10_TRUNC10_WRONLY，DEF_MODE) ; 
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使 用 者 (拥有 者 〉 能 够 读 这 个 文件 
使 用 者 〈 拥 有 者 ) 能 够 写 这 个 文件 
使 用 者 〈 拥 有 者 ) 能 够 执行 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 读 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 写 这 个 文件 
拥有 者 所 在 组 的 成 员 能 够 执行 这 个 文件 


其 他 人 【任何 人 ) 能 够 读 这 个 文件 
其 他 人 【任何 人 ) 能够 写 这 个 文件 
其 他 人 《任何 人 ) 能 够 执行 这 个 文件 





图 10-1 访问 权限 位 。 在 sys/stath 中 定义 
最 后 ， 进 程 通过 调用 close 函数 关闭 一 个 打开 的 文件 。 


#include <unistd.h> 


int close(int fd); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





关闭 一 个 已 关闭 的 描述 符 会 出 错 。 
区 练习 题 10.1 下 面 程序 的 输出 是 什么 ? 





1 #include "csapp.h" 


3 int main() 


{ 
5 int fdi, fqd2; 
6 
7 fdl = Open("foo.txt", 0_RDONLY, 0); 
8 Close (fd1); 
9 fd2 = Open("baz.txt", O_RDONLY, 0); 
10 printf ("fd2 = %d\n", fd2); 
11 . exit(0); 
12  } 


10.3 ” 读 和 写 文件 
应 用 程序 是 通过 分 别 调用 read 和 write 函数 来 执行 输入 和 输出 的 。 


#include <unistd.h> 


ssize_t read(int fd, void *buf, size_t n); 


返回 : 若 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 为 一 1 。 


ssize_t write(int fd, const void *buf, size_t D) ; 


返回 : 车 成 功 则 为 写 的 字 节 数 ， 若 出 锚 则 为 一 1。 





read 函数 从 描述 符 为 fd 的 当前 文件 位 置 拷贝 最 多 n 个 字 节 到 存储 器 位 置 buf。 返 回 值 一 1 
表示 一 个 错误 ， 而 返回 值 0 表示 EOF。 否 则 ， 返 回 值 表示 的 是 实际 传送 的 字 节 数量 。 
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write 函数 从 存储 器 位 置 buf 找 贝 至 多 nn 个 字 节 到 描述 符 fd 的 当前 文件 位 置 。 图 10-2 展 
示 了 一 个 程序 使 用 read 和 write 调用 一 次 一 个 字 节 地 从 标准 输入 拷贝 到 标准 输出 。 


code/io/cpstdin.c 
] #include "csapp.h" 


int main(void) 
{ 


char c; 


while(Read (STDIN_FILENO, &c, 1) != 0) 
Write(STDOUT_FILENO, &c, 1); 
9 exit(0); 


code/io/cpstdin.c 


图 10-2 一 次 一 个 字 节 地 从 标准 输入 拷贝 到 标准 输出 


通过 调用 1seek 函数 ， 应 用 程序 能 够 显示 地 修改 当前 文件 的 位 置 ， 这 部 分 内 容 不 在 我 们 的 
讨论 范围 之 内 。 


ssize 七 和 size t 有 些 什 么 区 别 ? 

你 可 能 已 经 注意 到 了 ，read 函数 有 一 个 size 七 的 输入 参数 和 一 一 个 ssize 七 的 返回 值 。 
那么 这 两 种 类 型 之 间 有 什么 区 别 呢 ? size 鞋 被 定义 为 unsigned int， 而 ssize 七 (有 符 
号 的 大 小 ) 被 定义 为 ijnt。read 函数 返回 一 个 有 符号 的 大 小 ， 而 不 是 一 个 无 符号 的 大 小 ， 这 是 
因为 出 错时 各 必须 返回 -1。 有 趣 的 是 ， 返 回 一 个 一 1 的 可 能 性 使 得 read 的 最 大 值 减 小 了 一 半 ， 
从 4GB 减 小 到 了 2GB。 


在 某 些 情况 下 ，zread 和 write 传送 的 字 节 比 应 用 程序 要 求 的 要 少 。 这 些 不 足 值 (short 
count) 不 表示 有 错误 。 出 现 这 种 情况 的 原因 如 下 : 
。 读 时 遇 到 EOF。 假 设 我 们 准备 读 一 个 文件 ， 该 文件 从 当前 文件 位 置 开 始 只 含有 20 多 个 字 
节 ， 而 我 们 以 50 个 字 节 的 片 进行 读 取 。 这 样 一 来 ， 下 一 个 read 返回 的 不 足 值 为 20， 此 
后 的 read 将 通过 返回 不 足 值 0 来 发 出 EOF 信号。 
“从 终 闹 读 文 本 行 。 如 果 打 开 文 件 是 与 终端 相关 联 的 (如 键盘 和 显示 器 )， 那 么 每 个 read 函 
数 将 一 次 传送 一 个 文本 行 ， 返 回 的 不 足 值 等 于 文本 行 的 大 小 。 
。 读 和 写 网 络 套 接 字 (socket)。 如 果 打 开 的 文件 对 应 于 网 络 套 接 字 ( 见 11.3.3 节 )， 那 么 内 
部 缓冲 约束 和 较 长 的 网 络 延 迟 会 引起 read 和 write 返回 不 足 值 。 对 Unix 管道 (pipe) 
调用 read 和 write 时 ， 也 有 可 能 出 现 不 足 值 ， 这 种 进程 间 的 通信 机 制 不 在 我 们 讨论 的 范 
围 之 内 。 
实际 上 ， 除 了 EOF， 你 在 读 磁 盘 文 件 时 ， 将 不 会 遇 到 不 足 值 ， 而 且 在 写 磁盘 文件 时 ， 也 不 
会 遇 到 不 足 值 。 然 而 ， 如 果 你 想 创建 健壮 的 〈 可 靠 的 ) 诸如 Web 服务 器 这 样 的 网 络 应 用 ， 就 必 
须 通过 反复 调用 read 和 write 处 理 不 足 值 ， 直 到 所 有 需要 的 字 节 都 传送 完毕 。 


10.4 用 RIO 包 健壮 地 读 写 


在 这 一 节 里 ， 我 们 会 讲述 一 个 IO 包 ， 称 为 RIO (Robust WO， 健 壮 的 VO) 包 ， 它 会 自动 为 
你 处 理 上 文中 所 述 的 不 足 值 。 在 像 网 络 程序 这 样 容易 出 现 不 足 值 的 应 用 中 ，RIO 包 提 供 了 方便 、 
健壮 和 高 效 的 WO。RIO 提供 了 两 类 不 同 的 函数 : 
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。 无 缓冲 的 输入 输出 函数 。 这 些 函 数 直 接 在 存储 器 和 文件 之 间 传 送 数 据 ， 没 有 应 用 级 缓冲 。 
它们 对 将 二 进 制 数据 读 写 到 网 络 和 从 网 络 读 写 二 进 制 数据 尤其 有 用 。 
。 带 缓冲 的 输入 函数 。 这 些 函 数 允 许 你 高 效 地 从 文件 中 读 取 文本 行 和 二 进 制 数据 ， 这 些 文 
件 的 内 容 缓存 在 应 用 级 缓冲 区 内 ， 类 似 于 为 像 printf 这 样 的 标准 IO 函数 提供 的 缓冲 
区 。 与 [109] 中 讲述 的 带 缓冲 的 IO 例 程 不 同 ， 带 缓冲 的 RIO 输入 函数 是 线程 安全 的 〈 见 
12.7.1 节 )， 它 在 同一 个 描述 符 上 可 以 被 交错 地 调用 。 例 如 ， 你 可 以 从 一 个 描述 符 中 读 一 些 
文本 行 ， 然 后 读 取 一 些 二 进 制 数据 ， 接 着 再 多 读 取 一 些 文本 行 。 
我 们 讲述 RIO 例 程 有 两 个 原因 。 第 一 ， 在 接 下 来 的 两 章 中 ， 我 们 开发 的 网 络 应 用 中 使 用 了 
它们 ; 第 二 ， 通 过 学 习 这 些 例 程 的 代码 ， 你 将 从 总 体 上 对 Unix IO 有 更 深入 的 了 解 。 
10.4.1 ”RIO 的 无 缓冲 的 输入 输出 函数 
通过 调用 rio readn 和 rio writen 函数 ， 应 用 程序 可 以 在 存储 器 和 文件 之 间 直 接 传送 数据 。 


#include "csapp.h" 


ssize_t rio_readn(int fd, void *usrbuf, size_t 1n); 
ssize_t rio_writen(int fd, void *usrbuf, size_t n); 


返回 : 车 成 功 则 为 传送 的 字 节 数 ， 若 EOF 则 为 0 (只 对 rio readn 而 言 )， 若 出 错 则 为 一 1。 





rio_readn 函数 从 描述 符 fd 的 当前 文件 位 置 最 多 传送 7 个 字 节 到 存储 器 位 置 usrbuf。 
类 似 地 ，rio writen 函数 从 位 置 usrbuf 传送 n 个 字 节 到 描述 符 fd。rio readn 函数 在 遇 
到 EOF 时 只 能 返回 一 个 不 足 值 。rio_writen 函数 决 不 会 返回 不 足 值 。 对 同一 个 描述 符 ， 可 以 
任意 交错 地 调用 rio_readn 和 rio_writen。 

图 10-3 显 示 了 rio readn 和 rio writen 的 代码。 注意 ， 如 果 rio readn 和 : rio 
writen 一 数 被 一 个 从 应 用 信号 处 理 程序 的 返回 中 断 ， 那 么 每 个 函数 都 会 手动 地 重启 read 或 
write。 为 了 尽 可 能 有 较 好 的 可 移植 性 ， 我 们 允许 被 中 断 的 系统 调用 ， 且 在 必要 时 重启 它们 。 
(参见 8.5.4 节 中 关于 被 中 断 的 系统 调用 的 讨论 。) 

10.4.2 ”RIO 的 带 缓冲 的 输入 函数 

一 个 文本 行 就 是 一 个 由 换行 符 结尾 的 ASCII 码 字 符 序 列 。 在 Unix 系统 中 ， 换 行 符 〈“\n’) 
与 ASCII 码 换 行 符 LF， 相同， 数字 值 为 0x0a。 假 设 我 们 要 编写 一 个 程序 来 计算 文本 文件 中 文 
本 行 的 数量 该 如 何 来 实现 呢 ? 一 种 方法 就 是 用 read 函数 来 一 次 一 个 字 节 地 从 文件 传送 到 用 户 存 
储 器 ， 检 查 每 个 字 节 来 查找 换行 符 。 这 个 方法 的 缺 扣 是 效 率 不 是 很 高， 每 读 取 文件 中 的 一 个 字 节 
都 要 求 陷 入 内 核 。 

z 一 种 更 好 的 方法 是 调用 一 个 包装 函数 (rio_ readlinepb)， 它 从 一 个 内 部 读 缕 冲 区 拷贝 一 
个 文本 行 ， 当 缓冲 区 变 空 时 ， 会 自动 地 调用 read 重新 填 满 缓冲 区 。 对 于 既 包 含 文本 行 也 包含 二 
进 制 数据 的 文件 〈 例 如 11.5.3 节 中 描述 的 HITP 响应 )， 我 们 也 提供 了 一 个 rio_readn 带 缓 冲 
区 的 版 本 ， 叫 做 rio _readnb， 它 从 和 io _readlineb 一 样 的 读 缓 冲 区 中 传送 原始 字 节 。 


#include "csapp.h" 


void rio_readinitb(rio_t *rp, int fd); 


ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size.t maxlen); 
ssize_t rio. _readnb(rio_t *rp, void *usrbuf; size_t n); 


返回 : 若 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 则 为 一 1 。 
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code/src/csapp.c 
1 ssize_t rio_readn(int fd, void *usrbuf, size_t n) 
2 
3 size_t nleft = 也; 
4 ssize_t nread; 
5 ‘char *bufp = USITbuf ; 
0 
7 while (nleft > 0) { 
8 if ((nre-id = read(fd, bufp, nleft)) < 0) { 
9 if (errno == EINTR) /* Interrupted by sig handler return */ 
10 nread = 0; /* and call read() again */ 
11 else 8 
人 return -1; /* errno set by read() +*/ 
13 } 
14 else if (nread == 0) 
15 break ; /* EQOF */ 
16 nleft -= Dread ; 
17 bufp += nread,; 
18 } 
19 return (n - nleft); /x* Return >= 0 */ 
20 


code/src/csapp.c 


| code/src/csapp.c 

1 ssize_t rio_writen(int fd, void *usrbuf, size_t n) 

2 于 

3 size_t nleft = n; 

44 ssize_t nwritten; 

5 .Char *bufp = usrbuf,; 

6 

7 while (nleft > 0) { 

8 if ((nwritten = write(fd, bufp, nleft)) <= 0) { 

9 if (errno == EINTR) /* Interrupted by sig handler return */ 
10 nwritten = 0; /* and call write() again */ 

1 else 

12 return -1; /* errno Set by wri::.;: */ 

13 } 
14 nleft -= nwritten,; 

15 bufp += nwritten,; 

16 } 

17 return n; 

18 


code/src/csapp.c 
图 10-3 rio readn 和 rio writen 涵 数 


每 打开 一 个 描述 符 都 会 调用 一 次 rio readinitb 函数 。 它 将 描述 符 fd 和 地 址 rp 处 的 一 
个 类 型 为 rio_t 的 读 缓冲 区 联系 起 来 。 

rio readinitb 函数 从 文件 rp 读 出 一 个 文本 行 〈 包 括 结尾 的 换行 符 )， 将 它 拷 贝 到 存 
储 器 位 置 usrbuf， 并 且 用 空 ( 零 ， 字符 来 结束 这 个 文本 行 。rio_readlineb 函数 最 多 读 
maxlen~1 个 字 节 ， 余 下 的 一 个 字符 留 给 结尾 的 空 字符 。 超 过 maxlen-1 字 节 的 文本 行 被 截 
断 ， 并 用 一 个 空 字符 结束 。 站 

rio_readnb 函数 从 文件 rp 最 多 读 n 个 字 节 到 存储 器 位 置 usrbuf。 对 同一 描述 符 ， 对 
rio readlineb 和 rio_readnb 的 调用 可 以 任意 交叉 进行 。 然 而 ， 对 这 些 带 缓冲 的 函数 的 调 
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用 却 不 应 和 无 缓冲 的 rio_readn 函数 交 又 使 用 。 
在 本 书 剩 下 的 部 分 中 将 给 出 大 量 的 RIO 函数 的 示例 。 图 10-4 展示 了 如 何 使 用 RIO 函数 来 一 
次 一 行 地 从 标准 输入 拷贝 一 个 文本 文件 到 标准 和 输出。 


code/io/cpfile.c 
#include "csapp.h" 


: 


1 
2 
3 int main(int argc, char **argv) 
4 
5 


int 卫 ; 
6 rio_t rio; 
char buf [MAXLINE] ; 


9 Rio._readinitb(&rio, STDIN_FILENO); 


10 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) 
11 Rio_writen(STDOUT_FILENO, buf, n); 


code/io/cpfile.c 
图 10-4 ”从 标准 输入 拷贝 一 个 文本 文件 到 标准 输出 


图 10-5 展示 了 一 个 读 缓冲 区 的 格式 ， 以 及 初始 化 它 的 rio_readinitb 了 痛 数 的 代码 。 
rio_readinitb 函数 创建 了 一 个 空 的 读 缓冲 区 ， 并 且 将 一 个 打开 的 文件 描述 符 和 这 个 缓冲 区 
联系 起 来 。 


code/include/csapp.h 
1  #define RIO_BUFSIZE 8192 
2 typedef struct { 
3 int rio_fd; ~/* Descriptor for this internal buf */ 
4 int rio_cnt ; /* Unread bytes in internal buf */ 
5 char *rio_bufptr; /* Next unread byte in internal buf */ 
6 char rio_buf [RIO_BUFSIZE] ; /* lnternal buffer */ 
. } rio_t,; 
code/include/csapp.h 
‘code/src/csapp.c 
| void rio_readinitb(riot *rp, int fd) 
2 
3 rp->rio_fd = fd; 
4 rp->rio_cnt = 0; 
$ rp->rio_bufptr = rp->rio_buf,; 
6 } 
code/src/csapp.c 


10-5 一 个 类 型 为 rio_t 的 读 缓冲 区 和 初始 化 它 的 rio_readinitb 函数 


RIO 读 程 序 的 核心 是 如 图 10-6 所 示 的 rio_read 函数 。rio_read 函数 是 Unix read 函数 
的 带 缓冲 的 版 本 。 当 调用 rio_read 要 求 读 n 个 字 节 时 ， 读 缓冲 区 内 有 rp->rio_cnt 个 未 读 
字 节 。 如 果 缓 冲 区 为 空 ， 那 么 会 通过 调用 read 再 填 满 它 。 这 个 read 调用 收 到 一 个 不 足 值 并 不 
是 错误 ， 只 不 过 读 缓 冲 区 是 填充 了 一 部 分 。 一 旦 缓冲 区 非 空 ，rio read 就 从 读 缓 冲 区 找 贝 n 
和 rp->rio_cnt 中 较 小 值 个 字 节 到 用 户 缓冲 区 ， 并 返回 找 贝 的 字 市 数 。 
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code/src/csapp.c 
| static ssize_t rio_read(rio_t *Irp, char *usrbuf, size_t n) 
Pr 
3 int cnt; 
4 
5 while (rp->rio_cnt <= 0) { /* Refill if buf is empty */ 
6 rp->rio_cnt = read(rp->rio_fd, rp->rio_buf, 
; sizeof (rp->rio. buf)); 
8 if (rp~>rio_cnt < 0) { 
9 if (errno != EINTR) /* Interrupted by sig handler return */ 
10 return -1; 
11 } 
12 else if (rp->rio_cnt == 0) /+ EOF */ 
13 return 0; 
14 else 
15 rp->rio_bufptr = rp->rio_buf; /+ Reset buffer ptr */ 
16 } 
局 
18 /* Copy min(tn, rp->rio cnt) bytes from internal buf to user buf */ 
19 cnt = n; 
20 if (rp->Tio_cnt < n) 
21 cnt = rp~>rio_cnt; 
22 memcpy (usrbuf, rp->rio_bufptr, cnt); 
23 rp->rio_bufptr += cnt,; 
24 rp->rio_cnt -= cnt; 
25 return cnt,; 
26 } 


code/src/csapp.c 


图 10-6 ”内 部 的 rio read 函数 


对 于 一 个 应 用 程序 ，rio_read 函数 和 Unix read 函数 有 同样 的 语义 。 在 出 错时 ， 它 返回 
值 -1， 并 且 适 当地 设置 errno。 在 EOF 时 ， 它 返回 值 0。 如 果 要 求 的 字 节 数 超过 了 读 缓冲 区 
内 未 读 的 字 节 的 数量 ， 它 会 返回 一 个 不 足 值 。 两 个 函数 的 相似 性 使 得 很 容易 通过 用 rio read 
代替 read 来 创建 不 同类 型 的 带 缓 冲 的 读 函 数 。 例 如 ， 用 rio_ read 代替 read， 图 10-7 中 的 
rio_readnb 藉 数 和 zio_readn 有 相同 的 结构 。 相 似 地 ， 图 10-7 中 的 rio readlineb 程序 
最 多 调用 maxlen-1 次 zio_read。 每 次 调用 都 从 读 缓冲 区 返回 一 个 字 节 ， 然后 检查 这 个 字 节 
是 否 是 结尾 的 换行 符 。 


RIO 包 的 起 源 

RIO 函数 的 灵感 来 自 于 W.Richard Stevens 在 他 的 经 典 网 络 编程 作品 [109] 中 描述 的 
readline、readn 和 writen 函数 。Lzio readn 和 rio writen 函数 与 Stevens 的 readn 
和 writen 函数 是 一 样 的 。 然 而 ，Stevens 的 readline 函数 有 一 些 局 限 性 在 RIO 中 得 到 了 
纠正 。 第 一 ， 因 为 readline 是 带 缓 冲 的 ， 而 readn 不 带 ， 所 以 这 两 个 函数 不 能 在 同一 描述 
符 上 一 起 使 用 。 第 二 ， 因 为 它 使 用 一 个 static 缓冲 区 ，Stevens 的 readline 函数 不 是 线程 
安全 的 ， 这 就 要 求 Stevens 引入 一 丫 不 同 的 线程 安全 的 版 本 ， 称 为 readline r。 我 们 已 经 在 
rio readlineb 和 rio. readnb 函数 中 修改 了 这 两 个 缺陷 ， 使 得 这 两 个 函数 是 相互 兼容 和 
线程 安全 的 。 
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code/src/csapp.c 
1 ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen) 
2 + 
3 int n, rc; 
4 char c, *bufp = usrbuf; 
3 
6 for (n = 1; n < maxlen; n++) { 
if ((rc = rio_read(rp, &c, 1)) == 1) { 
8 | *bufp++ = Cj 
9 if (c == '\n') 
10 break; 
11 } else if (rc == 0) { 
12 if (n == 1) 
13 return 0; /* EOF, no data read */ 
14 else 
15 break ; /* EOF, some data was read */ 
16 } else 
17 return -1; /* Error */ 
18 } 
19 *bufp = 0; 
20 return 卫 ; 
21 } 
code/src/csapp.c 
Code/src/csapp.c 
1 ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n) 
2 二 
3 size_t njleft = 卫 ; 
4 ssize_t nread; 
5 char *bufp = usrbuf,; 
6 
7 While (nleft > 0) { 
8 if ((nread = rio._read(rp, bufp, nleft)) < 0) { 
9 if (errno == EINTR) /* Interrupted by sig handler return */ 
10 nread = 0; /* Call read() again */ 
11 else 
12 return -1; /* errno set by read() */ 
13 } 
14 else if (nread == 0) 
15 break; /* EOF */ 
16 nleft -= nread,; 
17 bufp += nread; 
18 } 
19 return (n - nleft); /* Return >= 0 +*/ 
20 


code/src/csapp.c 


图 10-7 rio readlineb 和 rio readnb 也 数 


10.5” 读 取 文件 元 数据 


应 用 程序 能 够 通过 调用 stat 和 fstat 函数 ， 检 索 到 关于 文件 的 信息 〈 有 时 也 称 为 文件 的 
元 数据 (metadata))。 
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#include <unistd.h> 
#include <sys/stat.h> 


int stat(const char *filename, struct stat *buf); 
int fstat(int fd, struct stat *buf); 


返回 : 若 成 功 则 为 0， 若 出 锚 则 为 一 1。 





stat 函数 以 一 个 文件 名 作为 输入 ， 并 填写 如 图 10-8 所 示 的 一 个 stat 数据 结构 中 的 各 个 成 
员 。fstat 函数 是 相似 的 ， 只 不 过 是 以 文件 描述 符 而 不 是 文件 名 作为 输入 。 当 我 们 在 11.5 节 中 
讨论 Web 服务 器 时 ， 会 需要 stat 数据 结构 中 的 st_mode 和 st_size 成 员 ， 其 他 成 员 则 不 在 
我 们 的 讨论 范围 之 内 。 
statbuf.h (included by sys/stat.h) 


/* Metadata returned by the stat and fstat functions */ 
struct stat { 


dev._t st_dev ; /* Device */ 

ino_t st_ino; /* inode */ 

mode_t st_mode ; /* Protection and file type */ 
nlink._t st_nlink; /+ Number of hard links +*/ 

uid_t st_uid,; /* User ID of owner */ 

gid_t st_gid; /* Group ID of owner */ 

dev_t st_rdev; /* Device type (if inode device) */ 
off_t st_size; /* Total size, in bytes +/ 


unsigned long st_blksize; /* Blocksize for filesystem I/0 */ 
unsigned long st_blocks; /* Number of blocks allocated */ 


time_t st_atime; /* Time of last access */ 
time._t st_mtime; /* Time of last modification */ 
time_t st_ctime; /* Time of last change */ 


statbuf.h (included by sys/stat.h) 
10-8 ”stat 数据 结构 


st_size 成 员 包含 了 文件 的 字 节 数 大 小 。st_mode 成 员 则 编码 了 文件 访问 许可 位 ( 见 图 
10-1) 和 文件 类 型 。Unix 识别 大 量 不 同 的 文件 类 型 。 普 通 文件 包括 某 种 类 型 的 二 进 制 或 文本 数 
据 。 对 于 内 核 而 言 ， 文 本 文件 和 二 进 制 文件 毫 无 区 别 。 目 录 文 件 包含 关于 其 他 文件 的 信息 。 矢 接 
字 是 一 种 用 来 通过 网 络 与 其 他 进程 通信 的 文件 〈 见 11.4 节 )。 

Unix 提供 的 宏 指令 根据 st_mode 成 员 来 确定 文件 的 类 型 。 图 10-9 列 出 了 这 些 宏 的 一 个 


子 集 。 








图 10-9 根据 st_mode 位 确定 文件 类 型 的 宏 指令 。 在 sys/stat .h 中 定义 





图 10-10 展示 了 我 们 如 何 使 用 这 些 宏和 stat 梢 数 来 读 取 和 解释 一 个 文件 的 st_mode 位 。 
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code/io/statcheck.c 
! #include "csapp.h" 
2 
3 int main (int argc, char **argv) 
4 
5 struct stat stat; 
6 char *type, *readok; 
7 
8 Stat(argv[1], &stat); 
9 if (S_ISREG(stat.st_mode)) /* Determine file type */ 
10 type = "regular"; 
11 else if (S_ISDIR(stat.st_mode)) 
12 type = "directory",; 
13 ”else 
14 type = "other"; 
15 if ((stat.st_mode & S_IRUSR)) /* Check read access +*/ 
16 readok = "yes"; 
17 else 
18 readok = "no'",; 
19 
20 printf("type: %s, read: %s\n", type, readok); 
21 exit (0); 
22 3 
code/io/statcheck.c 
图 10-10 ”查询 和 处 理 一 个 文件 的 st_mode 位 
10.6 ”共享 文件 


可 以 用 许多 不 同 的 方式 来 共享 Unix 文件 。 除 非 你 很 清楚 内 核 是 如 何 表示 打开 的 文件 ， 否 则 
文件 共享 的 概念 相当 难 懂 。 内 核 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 : 
。 描 述 符 表 《descriptor table)。 每 个 进程 都 有 它 独 立 的 描述 符 表 ， 它 的 表 项 是 由 进程 打开 的 
文件 描述 符 来 索引 的 。 每 个 打开 的 描述 符 表 项 指向 文件 表 中 的 一 个 表 项 。 
。 文 件 表 (file table)。 打 开 文 件 的 集合 是 由 一 张 文 件 表 来 表示 的 ， 所 有 的 进程 共享 这 张 表 。 
每 个 文件 表 的 表 项 组 成 〈 针 对 我 们 的 目的 ) 包括 有 当前 的 文件 位 置 、 引 用 计数 (Teference 
count)〈 即 当前 指向 该 表 项 的 描述 符 表 项 数 )， 以 及 一 个 指向 v-node 表 中 对 应 表 项 的 指针 。 
关闭 一 个 描述 符 会 减少 相应 的 文件 表 表 项 中 的 引用 计数 。 内 核 不 会 删除 这 个 文件 表 表 项 ， 
直到 它 的 引用 计数 为 零 。 
。v-node 表 〈v-node table)。 同 文件 表 一 样 ， 所 有 的 进程 共享 这 张 v-node 表 。 每 个 表 项 包含 
stat 结构 中 的 大 多 数 信 息 ， 包 括 st_mode 和 st_size 成 员 。 
图 10-11 展示 了 一 个 示例 ， 其 中 描述 符 1 和 4 定员 问 的 中 人 生 坟 沁 奸 几 商 小 半 半 
文件 。 这 是 一 种 典型 的 情况 ， 没 有 共享 文件 ， 并 且 每 个 描述 符 对 应 一 个 不 同 的 文件 。 
如 图 10-12 所 示 ， 多 个 描述 符 也 可 以 通过 不 同 的 文件 表 表 项 来 引用 同一 个 文件 。 例 如 ， 如 果 
以 同一 个 filename 调用 open 函数 两 次 ， 就 会 发 生 这 种 情况 。 关 键 思 想 是 每 个 描述 符 都 有 它 自 
己 的 文件 位 置 ， 所 以 对 不 同 描 述 符 的 读 操 作 可 以 从 文件 的 不 同位 置 获取 数据 。 
我 们 也 能 理解 父子 进程 是 如 何 共 享 文件 的 。 假 设 在 调用 fork 之 前 ， 父 进程 有 如 图 10-11 所 
示 的 打开 文件 。 然 后 ， 图 10-13 展示 了 调用 fork 后 的 情况 。 子 进程 有 一 个 父 进 程 描 述 符 表 的 副 
本 。 父 子 进程 共享 相同 的 打开 文件 表 和 集合 ， 因 此 共享 相同 的 文件 位 置 。 一 个 很 重要 的 结果 就 是 ， 
在 内 核 删 除 相应 文件 表 表 项 之 前 ， 父 子 进程 必须 都 关闭 了 它们 的 描述 符 。 
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描述 符 表 打开 文件 表 v-node 表 
(每 个 进程 一 张 表 ) ( 所 有 进程 共享 ) (所 有 进程 共享 ) 
文件 A 






stdin fd0 [| | 
stdout fdl ”| 
stderr fd2| | 


0 文件 访问 


文件 位 置 







fd3| | refcnt=1| 
fa4| | | 


文件 B 


ee 
文件 位 轩 
refcnt=1 
ee 







文件 访问 
_ 文 件 大 小 | 
文件 类 型 
| 









图 10-11 典型 的 打开 文件 的 内 核 数据 结构 。 在 这 个 示例 中 ， 两 个 描述 符 引 用 不 同 的 文件 。 没 有 共享 


描述 符 表 z 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) (所 有 进程 共享 ) (所 有 进程 共享 ) 


文件 A 






fd0| 文件 访问 
2 | A 
fd3| | 文件 类 型 












4 
文件 位 置 
refcnt=1 
Wi 


图 10-12 文件 共享 。 这 个 例子 展示 了 两 个 描述 符 通过 两 个 打开 文件 表 表 项 共享 同一 个 磁盘 文件 






打开 文件 表 v-node 表 
描述 符 表 ( 所 有 进程 共享 ) ( 所 有 进程 共享 ) 


父 进程 的 表 ”文件 A 
~ 
文件 位 置 
refcnt =2 
| 


文件 B 


refcn 
refcn 


\ 

t=2 
DR 
文件 位 置 

t=2 





10-13 子 进 程 如 何 继承 父 进程 的 打开 文件 。 初 始 状 态 如 图 10-11 所 示 
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PN 练习 题 10.2 ”假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 。 那 么 ， 下 列 程序 的 
输出 是 什么 ? 





#include "csapp.h" 


int main() 
4 + 
5 int fdl, fd2; 
6 char c; 
7 
8 fdi = Open("foobar.txt", 0_RDONLY, 0); 
9 fd2 = Open("foobar.txt", O0_RDONLY, 0); 
10 Read(fdi, &c, 1); 
11 Read(fd2, &c, 1); 
12 printf("c = %c\n", c); 
13 exit (0); 
14 了】 


| 2 10.3 就 像 前 面 那样 ， 假 设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 。 那 
么 下 列 程序 的 输出 是 什么 ? 





#include "csapp.h" 


1 
2 
3 int maint) 
4 
5 


‘ 
int fd; 

6 char c; 
7 
8 fd = 0pen("foobar .txt"，0_RDONLY， 0) ; 
9 if (Fork() == 0) { 
10 Read(fd, &c, 1); 
11 exit (0); 
12 } 
13 Wait (NULL); 
14 Read(fd, &c, 1); 
15 printf("c = %c\n", c); 
16 exit (0); 
17 } 


10.7 ”1/O 重 定向 z i 
Unix 外 壳 提供 了 IO 重 定向 操作 符 ， 人 允许 用 户 将 磁盘 文件 和 标准 输入 输出 联系 起 来 。 例 如 ， 键 和 


unix> JIS > foo.txt 


使 得 外 过 加 载 和 执行 1s 程序 ， 将 标准 输出 重 定 向 到 磁盘 文件 foo .txt。 就 如 我 们 将 在 11.5 市 
中 看 到 的 那样 ， 当 一 个 Web 服务 器 代表 客户 端 运行 CGI 程序 时 ， 它 就 执行 一 种 相似 类 型 的 重 定 
向 。 那 么 VO 重 定向 是 如 何 工作 的 呢 ? 一 种 方式 是 使 用 dup2 函数 。 


#include <unistd.h> 


int dup2(int oldfd, int newfd) ; 


返回 : 车 成 功 则 为 非 负 的 描述 符 ， 若 出 锚 则 为 一 1。 
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dup2 函数 搁 贝 描述 符 表 表 项 oldfd 到 描述 符 表 表 项 newfdq， 履 盖 描 述 符 表 表 项 newfd 以 
前 的 内 容 。 如 果 newfd 已 经 打开 了 ，dup2 会 在 拷贝 oldfd 之 前 关闭 newfd。 

假设 在 调用 dup2 (4,1) 之 前 ， 我 们 的 状态 如 图 10-11 所 示 ， 其 中 描述 符 1 〈 标 准 输出 ) 对 
应 于 文件 A《〈 比 如 一 个 终端 )， 描 述 符 4 对 应 于 文件 B〔 比 如 一 个 磁盘 文件 )。A 和 B 的 引用 计数 
都 等 于 1。 图 10-14 显示 了 调用 dup2 (4,1) 之 后 的 情况 。 两 个 描述 符 现在 都 指向 文件 B ; 文件 
A 已 经 被 关闭 了 ， 并 且 它 的 文件 表 和 v-node 表 表 项 也 已 经 被 删除 了 ; 文件 B 的 引用 计数 已 经 增 
加 了 。 从 此 以 后 ， 任 何 写 到 标准 输出 的 数据 都 被 重 定向 到 文件 B。 










描述 符 表 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) (所 有 进程 共享 ) ( 所 有 进程 共享 ) 
_ 文 件 A > 
fd 0 Se 和 文件 访问 | 
文件 位 置 | 文件 大 小 | 
fd3 Irefcnt=0) | 文件 类 型 ; 
fd4 | ot 
文件 B 
| 文件 访问 
文件 位 轩 EE 
文件 类 型 
i | 
图 10-14 通过 调用 dup2 (4,1) 重 定 向 标准 输出 之 后 的 内 核 数据 结构 。 初 始 状态 如 图 10-11 所 示 
左边 和 右边 的 hoinkies 


为 了 避免 和 其 他 括号 类 型 操作 符 ， 比 如 “]” 和 “[” 相 混淆 ， 我 们 总 是 将 外 党 的 “>” 操 作 
符 称 为 yy ae hoinky ”， 而 将 4 一” 操作 符 称 为 «ee hoinky ”。 | 


家 于 练习 题 10.4 如 何 用 dup2 将 标准 输入 重 定向 到 描述 符 5 ? 
| 练习 题 10.5 ”假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 ， 那 么 下 列 程序 的 输 


1 ER 


出 是 什么 ? 





#include "csapp.h" 


] 

y 

3 int main() 
4 

5 


int fdi, fd2; 
6 char c; 
8 fdl = Open("foobar.txt", 0O_RDONLY, 0); 
9 fd2 = Open("foobar.txt", 0_RDONLY, 0); 
10 Read(fd2, &c, 1); 
11 Dup2(fd2, fd1); 
12 Read(fdi, &c, 1); 
13 printf("c = %c\n", c); 
14 exit (0); 
15 3} 


10.8 标准 MO 
”ANSIC 定义 了 一 组 高 级 输入 输出 函数 ， 称 为 标准 IO 库 ， 为 程序 员 提供 了 Unix IO 的 较 高 
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级 别 的 蔡 代 。 这 个 库 (1ibc) 提供 了 打开 和 关闭 文件 的 函数 (fopen 和 fclose)、 读 和 写字 节 
的 函数 (fread 和 fwrzite)、 读 和 写字 符 串 的 函数 (fgets 和 fputs)， 以 及 复杂 的 格式 化 的 
IO 函数 (scanf 和 printf)。 

标准 IO 库 将 一 个 打开 的 文件 模型 化 为 一 个 流 。 对 于 程序 员 而 言 ， 一 个 流 就 是 一 个 指向 
FILE 类 型 的 结构 的 指针 。 每 个 ANSIC 程 序 开始 时 都 有 三 个 打开 的 流 stain、stdout 和 
stderr， 分 别 对 应 于 标准 输入 、 标 准 输 出 和 标准 错误 : 


#include <stdio.h> 


extern FILE *stdin,; /* Standard input (descriptor 0) */ 
extern FILE *stdout; /x Standard output (descriptor 1) */ 
extern FILE *stderr; /* Standard error (descriptor 2) xy 


类 型 为 FILE 的 流 是 对 文件 描述 符 和 流 缓冲 区 的 抽象 。 流 缓冲 区 的 目的 和 RIO 读 缓冲 区 的 一 
样 : 就 是 使 开销 较 高 的 Unix IO 系统 调用 的 数量 尽 可 能 的 小 。 例 如 ， 假 设 我 们 有 一 个 程序 ， 它 
反复 调用 标准 VO 的 getc 函数 ， 每 次 调用 返回 文件 的 下 一 个 字符 。 当 第 一 次 调用 getc 时 ， 库 
通过 调用 一 次 read 函数 来 填充 流 缓冲 区 ， 然 后 将 缓冲 区 中 的 第 一 个 字 节 返回 给 应 用 程序 。 只 要 
缓冲 区 中 还 有 未 读 的 字 节 ， 接 下 来 对 getc 的 调用 就 能 直接 从 流 缓冲 区 得 到 服务 。 


10.9 综合 : 我 该 使 用 哪些 |/O 函数 


10-15 总 结 了 我 们 在 这 一 章 里 讨论 过 的 各 种 IO 包 。Unix LO 是 在 操作 系统 内 核 中 实现 的 。 
应 用 程序 可 以 通过 open、close、1lseek、read、 write 和 stat 这 样 的 函数 来 访问 Unix LO。 
较 高 级 别 的 RIO 和 标准 IO 函数 都 是 基于 (使 用 ) Unix IO 函数 来 实现 的 。RIO 函数 是 专 为 本 书 
开发 的 read 和 write 的 健壮 的 包装 函数 。 它 们 自动 处 理 不 足 值 ， 并 且 为 读 文本 行 提供 一 种 高 
效 的 带 缓 冲 的 方法 。 标 准 IO 函数 提供 了 Unix IO 函数 的 一 个 更 加 完整 的 带 缓 冲 的 替代 品 ， 包 括 
格式 化 的 VO 例 程 。 


fopen fdopen 
fread fwrite 
fscanf fprintf 


sscanf sprintf |, 
fgets fputs : 


C 应 用 程序 


rio readn 


fflush fseek 





0 有 本 rio writen 
标准 0 函数 | | RIO 函数 上 rio readinitb 
rio readlineb 
open read rs a EY rio readnb 
write lseek 
stat close | 


图 10-15 ” Unix WO、 标准 WO 和 RIO 之 间 的 关系 


那么 ， 在 你 的 程序 中 该 使 用 这 些 函 数 中 的 哪 一 个 呢 ? 标准 IO 函数 是 磁盘 和 终端 设备 IO 之 
选 。 大 多 数 C 程序 员 在 他 们 的 职业 生涯 中 只 使 用 标准 WO， 而 从 不 涉及 低级 Unix IO 函数 。 只 要 
可 能 ， 我 们 推荐 你 也 这 样 做 。 

不 幸 的 是 ， 当 我 们 试图 对 网 络 输入 输出 使 用 标准 WO 时 ， 它 却 带 来 了 一 些 令 人 讨厌 的 问题 。 
就 像 我 们 将 在 11.4 节 中 看 到 的 那样 ，Unix 对 网 络 的 抽象 是 一 种 称 为 套 接 字 的 文件 类 型 。 和 任何 
Unix 文件 一 样 ， 套 接 字 也 是 用 文件 描述 符 来 引用 的 ， 在 这 种 情况 下 称 为 套 接 字 描 述 符 。 应 用 进 
程 通 过 读 写 套 接 字 描 述 符 来 与 运行 在 其 他 计算 机 上 的 进程 通信 。 

标准 IO 流 ， 从 某 种 意义 上 而 言 是 全 双 工 的 ， 因 为 程序 能 够 在 同一 个 流 上 执行 输入 和 输出 。 
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然而 ， 对 流 的 限制 和 对 套 接 字 的 限制 ， 有 时 候 会 互相 冲突 ， 而 又 极 少 有 文档 描述 这 些 现象 : 
。 限 制 一 : 跟 在 输出 函数 之 后 的 输入 函数 。 如 果 中 间 没 有 揪 人 对 fflush、fseek、fsetpos 
或 者 rewind 的 调用 ， 一 个 输入 函数 不 能 跟随 在 一 个 输出 函数 之 后 。fflush 函数 清空 与 流 
相关 的 缓冲 区 。 后 三 个 函数 使 用 Unix IO 1seek 函数 来 重 置 当前 的 文件 位 置 。 
。 限 制 二 ; 跟 在 输入 函数 之 后 的 输出 函数 。 如 果 中 间 没 有 插入 对 fseek、fsetpos 或 者 
rewind 的 调用 ， 一 个 输出 函数 不 能 跟随 在 一 个 输入 函数 之 后 ， 除 非 该 输入 函数 遇 到 了 一 
个 EOF。 
这 些 限制 给 网 络 应 用 带 来 了 一 个 问题 ， 因 为 对 套 接 字 使 用 1seek 函数 是 非法 的 。 对 流 IO 
的 第 一 个 限制 能 够 通过 采用 在 每 个 输入 操作 前 刷新 缓冲 区 这 样 的 规则 来 满足 。 然 而 ， 要 满足 
第 二 个 限制 的 唯一 办 法 是 ， 对 同一 个 打开 的 套 接 字 描述 符 打 开 两 个 流 ， 0 一 个 用 
来 写 : 


FILE *fpin, *fpout,; 


fpin = fdopen(sockfd, "r"); 
fpout = fdopen(sockfd, "w'"); 


但 是 这 种 方法 也 有 问题 ， 因 为 它 要 求 应 用 程序 在 两 个 流 上 都 要 调用 fclose， 这 样 才 能 释放 
与 每 个 流 相 关联 的 存储 器 资源 ， 避 免 存 储 带 洪江 : 


fclose(fpin); 
fclose(fpout); 


这 些 操作 中 的 每 一 个 都 试图 关闭 同一 个 底层 的 套 接 字 描 述 符 ， 所 以 第 二 个 close 操作 就 会 
失败 。 对 顺序 的 程序 来 说 ， 这 并 不 是 问题 ， 但 是 在 一 个 线程 化 的 程序 中 关闭 一 个 已 经 关闭 了 的 描 
述 符 是 会 导致 灾难 的 〈 见 12.7.4 节 )。 

因此 ， 我 们 建议 你 在 网 络 套 接 字 上 不 要 使 用 标准 IO 函数 来 进行 输入 和 输出 。 而 要 使 用 健壮 
的 RIO 函数 。 如 果 你 需要 格式 化 的 输出 ， 使 用 sprintf 函数 在 存储 器 中 格式 化 一 个 字符 串 ， 然 
后 用 rio writen 把 它 发 送 到 套 接口 。 如 果 你 需要 格式 化 输入 ， 使 用 rio_readlineb 来 读 一 
个 完整 的 文本 行 ， 然 后 用 sscanf 从 文本 行 提 取 不 同 的 字段 。 


10.10 小结 


Unix 提供 了 少量 的 系统 级 函数 ， 它 们 允许 应 用 程序 打开 、 关 闭 、 读 和 写 文件 ， 提 取 文 件 的 
元 数据 ， 以 及 执行 IO 重 定向 。Unix 的 读 和 和 写 操作 会 出 现 不 足 值 ， 应 用 程序 必须 能 正确 地 预计 
和 处 理 这 种 情况 。 应 用 程序 不 应 直接 调用 Unix VO 函数 ， 而 应 该 使 用 RIO 包 ，RIO 包 通 过 反复 
执行 读 写 操作 ， 直 到 传送 完 所 有 的 请 求 数据 ， 目 动 处 理 不 足 值 。 

Unix 内 核 使 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 。 描 述 符 表 中 的 表 项 指向 打开 文件 表 
中 的 表 项 ， 而 打开 文件 表 中 的 表 项 又 指向 v-node 表 中 的 表 项 。 每 个 进程 都 有 它 目 己 单独 的 描述 
符 表 ， 而 所 有 的 进程 共享 同一 个 打开 文件 表 和 v-node 表 。 理 解 这 些 结构 的 一 般 组 成 就 能 使 我 们 
清楚 地 理解 文件 共享 和 LO 重 定 问 。 z 

标准 VO 库 是 基于 Unix VO 实现 的 ， 并 提供 了 一 组 强大 的 高 级 IO 例 程 。 对 于 大 多 数 应 用 程 
序 而 言 ， 标 准 IO 更 简单 ， 是 优 于 Unix IO 的 选择 。 然 而 ， 因 Re LO I ET 
互 不 兼容 的 限制 ，Unix VO 比 标准 IO ea 用 程序 。 
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参考 文献 说 明 
Stevens 编写 了 Unix IO 的 标准 参考 文献 [110]。Kermighan 和 Ritchie 对 于 标准 IO 函数 给 出 
了 清晰 而 完整 的 讨论 [58]。 
家 庭 作业 
*10.6 下 面 程序 的 输出 是 什么 ? 
| #include "csapp.h" 
2 
3 int main() 
4 攻 
5 int fdi, fd2; 
6 
2 fdl = Open("foo.txt", O0_RDONLY, 0); 
8 fd2 = Open("bar.txt'", 0_RDONLY, 0); 
9 Close(fd2) ; 
10 fd2 = Open("baz.txt", 0_RDONLY, 0); 
11 printf ("fd2 = %d\n", fd2); 
12 exit (0); 
13 } 


*10.7 
** 10.8 


** 10.9 


** 10.10 


修改 图 10-4 中 所 示 的 cpfile 程序 ， 使 得 它 用 RIO 函数 从 标准 输入 拷贝 到 标准 输出 ， 一 次 MAXBUF 
个 字 节 。 

编写 图 10-10 中 的 statcheck 程序 的 一 个 版 本 ， 叫 做 fstatcheck， 它 从 命令 行 上 取得 一 个 描述 
符 数字 而 不 是 文件 名 。 

考虑 下 面 对 家 庭 作业 题 10.8 中 的 fstatcheck 程序 的 调用 : 


unix> fstatcheck 3 < foo.txt 


你 可 能 会 预想 这 个 对 fstatcheck 的 调用 将 提取 和 显示 文件 foo.txt 的 元 数据 。 然 而 ， 当 我 们 
在 系统 上 运行 它 时 ， 它 将 失败 ， 返 回 “ 坏 的 文件 描述 符 ”。 根 据 这 种 和 情况， 填写 出 外 壳 在 fork 和 
execve 调用 之 间 必 须 执行 的 伪 代 码 : 


if (Fork() == 0) { /* Child */ 
/* What code is the shell executing right here? */ 
Execve("fstatcheck", argv, envp); 


} 


修改 图 10-4 中 的 cpfile 程序 ， 使 得 它 有 一 个 可 选 的 命令 行 参数 infile。 如 果 给 定 了 infile， 那 
么 拷贝 infile 到 标准 输出 ， 否 则 像 以 前 那样 拷贝 标准 输入 到 标准 输出 。 一 个 要 求 是 对 于 两 种 情况 ， 
你 的 解答 都 必须 使 用 原来 的 拷贝 循环 (第 9 一 11 行 )。 只 人 允许 你 插入 代码 ， 而 不 允许 更 改 任何 已 经 
存在 的 代码 。 


练习 题 答案 


练习 题 10.1 Unix 进程 生命 周期 开始 时 ， 打 开 的 描述 符 赋 给 了 stqain (描述 符 0)、stqout (描述 符 1) 
和 stderz (描述 符 2)。open 函数 总 是 返回 最 低 的 未 打开 的 描述 符 ， 所 以 第 一 次 调用 open 会 返回 描述 符 
3。 调 用 close 函数 会 释放 描述 符 3。 最 后 对 open 的 调用 会 返回 描述 符 3， 因 此 程序 的 输出 是 “fd2=3?”。 
练习 题 10.2 ”描述 符 fd91 和 fd2 都 有 各 自 的 打开 文件 表 表 项 ， 所 以 每 个 描述 符 对 于 foobar .txt 都 有 它 
自己 的 文件 位 置 。 因 此 ， 从 £92 的 读 操作 会 读 取 foobar .txt 的 第 一 个 字 节 ， 并 输出 


和 锚 10 恒 东 统 级 1/0 613 


c= £ 
而 不 是 像 你 开始 可 能 想 的 


练习 题 10.3 回想 一 下 ， 子 进程 会 继承 父 进程 的 描述 符 表 ， 以 及 所 有 进程 共享 的 同一 个 打开 文件 表 。 因 
此 ， 描 述 符 fd 在 父子 进程 中 都 指向 同一 个 打开 文件 表 表 项 。 和 个 字 节 时 ， 文 件 位 置 
加 1。 因 此， 父 进程 会 读 取 第 二 个 字 节 ， 而 输出 就 是 


CC 三 O 


练习 题 10.4 重 定 向 标准 输入 〈 描 述 符 0) 到 描述 符 5， 我 们 将 调用 aup2(5,0) 或 者 等 价 的 dup2 
(5, STDIN_FILENO) 。 
练习 题 10.5 第 一 眼 你 可 能 会 想 输出 应 该 是 


c=f£ 
但 是 因为 我 们 将 fdql 重 定向 到 了 fd2， 输 出 实际 上 是 
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网 络 编程 


网 络 应 用 随处 可 见 。 任 何 时 候 你 浏览 Web、 发 送 E-mail 或 者 弹出 一 个 X window， 你 就 正在 
使 用 一 个 网 络 应 用 程序 。 有 趣 的 是 ， 所 有 的 网 络 应 用 都 是 基于 相同 的 基本 编程 模型 ， 有 着 相似 的 
整体 逻辑 结构 ， 并 且 依 赖 相同 的 编程 接口 。 

网 络 应 用 依赖 于 很 多 在 系统 研究 中 已 经 学 习 过 的 概念 ， 例 如 ， 进 程 、 信 号 、 字 节 顺 序 、 存 储 
右上 映射 以 及 动态 存储 分 配 ， 痢 扮演 着 重要 的 角色 。 还 有 一 些 新 概念 要 掌握 。 我 们 需要 理解 基本 的 
客户 端 - 服务 器 编程 模型 ， 以 及 如 何 编写 使 用 因特网 提供 的 服务 的 客户 端 - 服务 器 程序 。 最 后 ， 
我 们 将 把 所 有 这 些 概念 结合 起 来 ， 开 发 一 个 小 的 但 功能 齐全 的 Web 服务 器 ， 能 够 为 真实 的 Web 
浏览 器 提供 静态 和 动态 的 文本 和 图 形 内 容 。 


11.1 客户 端 - 服务 器 编程 模型 


每 个 网 络 应 用 都 是 基于 客户 端 一 服务 器 模型 的 。 采 用 这 个 模型 ， 一 个 应 用 是 由 一 个 服务 器 
进程 和 一 个 或 者 多 个 客户 端 进 程 组 成 。 服 务 器 管理 某 种 资源 ， 并 且 通 过 操作 这 种 资源 来 为 它 的 客 
户 端 提 供 某 种 服务 。 例 如 ， 一 个 Web 服务 器 管理 了 一 组 磁盘 文件 ， 它 会 代表 客户 端 进行 检索 和 
执行 。 一 个 FTP 服务 器 就 管理 了 一 组 磁盘 文件 ， 它 会 为 客户 端 进行 存储 和 检索 。 相 似 地 ， 一 个 
电子 邮件 服务 器 管理 了 一 些 文件 ， 它 为 客户 端 进行 读 和 更 新 。 

客户 端 一 服务 器 模型 中 的 基本 操作 是 事务 (transaction)( 见 图 11-1)。 一 个 客户 端 一 服务 器 
事务 由 四 步 组 成 : 

1) 当 一 个 客户 端 需要 服务 时 ， 它 向 服务 器 发 送 一 个 请 求 ， 发 起 一 个 事务 。 例 如 ， 当 Web 浏 
览 器 需要 一 个 文件 时 ， 它 就 发 送 一 个 请 求 给 Web 服务 器 。 

2) 服务 器 收 到 请 求 后 ， 解 释 它 ， 并 以 适当 的 方式 操作 它 的 资源 。 例 如 ， 当 Web 服务 器 收 到 
浏览 器 发 出 的 请 求 后 ， 它 就 读 一 个 磁盘 文件 。 

3) 服务 器 给 客户 端 发 送 一 个 响应 ， 并 等 待 下 一 个 请 求 。 例 如 , Web 服务 器 将 文件 发 送 回 客户 端 。 

4) 客户 端 收 到 响应 并 处 理 它 。 例 如 ， 当 Web 浏览 器 收 到 来 自 服 务 器 的 一 页 后 ， 它 就 在 屏幕 
上 显示 此 页 。 


1. 客户 端 发 送 请 求 
PE 
处 理 响应 “进程 ”从 
: 3. 服务 器 发 送 响 应 
图 11-1 一 个 客户 端 一 服务 器 事务 


认识 到 客户 端 和 服务 器 是 进程 ， 而 不 是 常 津 提 到 的 机 器 或 者 主机 ， 这 是 很 重要 的 。 一 台 主 机 
可 以 同时 运行 许多 不 同 的 客户 端 和 服务 器 ， 而 且 一 个 客户 端 和 服务 器 的 事务 可 以 在 同一 台 或 是 不 
同 的 主机 上 运行 。 无 论 客户 端 和 服务 器 是 怎样 映射 到 主机 上 的 ， 客 户 端 - 服务 器 模型 是 相同 的 。 


客户 端 ~ 服务 器 事务 和 数据 库 事务 
客户 彤 一 服务 器 事务 不 是 数据 库 事 务 ， 没 有 数据 库 事务 的 任何 特性 ， 例 如 原子 性 。 在 我 们 
的 上 下 文中 ， 事 务 仅仅 是 客户 端 和 服务 器 执行 的 一 系列 步骤 。 









2. 服务 器 
处 理 请 求 
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11.2 ”网络 


客户 端 和 服务 器 通常 运行 在 不 同 的 主机 上 ， 并 且 通 过 计算 机 网 络 的 硬件 和 软件 资源 来 通信 。 
网 络 是 复杂 的 系统 ， 在 这 里 我 们 只 想 了 解 一 点 皮毛 。 我 们 的 目标 是 从 程序 员 的 角度 给 你 一 个 可 工 
作 的 思考 模型 。 / 

”对 于 一 个 主机 而 言 ， 网 络 只 是 又 一 种 IO 设备 ， 作 为 数据 源 和 数据 接收 方 ， 如 图 11-2 所 示 。 
一 个 播 到 IO 总 线 扩展 模 的 适配器 提供 了 到 网 络 的 物理 接口 。 从 网 络 上 接收 到 的 数据 从 适配器 经 
过 IO 和 存储 器 总 线 拷贝 到 存储 器 ， 典 型 地 是 通过 DMA ( 译 者 注 ; 直接 存储 器 存 取 方式 ) 传送 。 
相似 地 ， 数 据 也 能 从 存储 器 拷贝 到 网 络 。 


CPU 芯片 





寄存 器 文件 


控制 器 


鼠标 ”键盘 


图 11-2 一 个 网 络 主机 的 硬件 组 成 


物理 上 而 言 ， 网 络 是 一 个 按照 地 理 远近 组 成 的 层次 系统 。 最 低层 是 LAN (Local Area 
Network， 局 域 网 )， 在 一 个 建筑 或 者 校园 范围 内 。 迄 今 为 止 ， 最 流行 的 局 域 网 技术 是 以 太 网 
(Etheret)， 它 是 由 施乐 公司 帕 洛 阿尔 托 研究 中 心 (Xerox PARC) 在 20 世纪 70 年 代 中 期 提出 
的 。 以 太 网 技术 被 证 明 是 适应 力 极 强 的 ， 从 3MB/s 演变 到 10GB/s。 

一 个 以 太 网 段 (Ethernet segment) 包括 一 些 电缆 〈 通 常 是 双 绞 线 ) 和 一 个 叫做 集线器 的 小 盒 
子 ， 如 图 11-3 所 示 。 以 太 网 段 通常 跨越 一 些小 的 区 域 ， 例 如 某 建 筑 物 的 一 个 房间 或 者 一 个 楼 层 。 
每 根 电缆 都 有 相同 的 最 大 位 带宽 ， 典 型 的 是 100MB/s 或 者 1GB/s。 一 端 连 接 到 主机 的 适配器 ， 
而 另 一 端 则 连接 到 集线器 的 一 个 端口 上 。 集 线 器 不 加 分 辨 地 将 从 一 个 端口 上 收 到 的 每 个 位 复制 到 
其 他 所 有 的 端口 上 。 因 此 ， 每 台 主 机 都 能 看 到 每 个 位 。 

每 个 以 太 网 适配器 都 有 一 个 全 球 唯一 的 48 位 地 址 ， 它 
存储 在 这 个 适配器 的 非 易 失 性 存储 器 上 。 一 台 主 机 可 以 发 送 
一 段位 ， 称 为 帧 〈frame)， 到 这 个 网 段 内 其 他 任何 主机 。 每 
个 帧 包括 一 些 固定 数量 的 头 部 (header) 位 ， 用 来 标识 此 帧 
的 源 和 目的 地 址 以 及 此 帧 的 长 度 ， 此 后 紧 随 的 就 是 数据 位 的 
有 效 载荷 。 每 个 主机 适配器 都 能 看 到 这 个 帧 ， 但 是 只 有 目的 
主机 实际 读 取 它 。 





100 MB/s™ 


图 11-3 以太 网 段 
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使 用 一 些 电缆 和 叫做 网 桥 〈bridge) 的 小 例子， 多 个 以 太 网 段 可 以 连接 成 较 大 的 局 域 网 ， 称 

为 桥接 以 太 网 (bridged Ethermet)， 如 图 11-4 所 示 。 桥 接 以 太 网 能 够 跨越 整个 建筑 物 或 者 校区 。 

”在 一 个 桥接 以 太 网 里 ， 一 些 电 绕 连 接 网 桥 与 网 桥 ， 而 另外 一 些 连接 网 桥 和 和 集线器。 这 些 电 缆 的 带 

宽 可 以 是 不 同 的 。 在 我 们 的 示例 中 ， 网 桥 与 网 桥 之 间 的 电缆 有 1GB/s 的 带宽 ， 而 四 根 网 桥 和 集 
线 器 之 间 电 费 的 带宽 却 是 100MB/s。 


人 B 


X 


a 
集线器 | 100 MB/s 100 MB/s 集线器 


1 GB/s 


: 全 线 届 | 100 MB/s 100 MB/s 


Y 


图 11-4 桥接 以 太 网 


网 桥 比 集线器 更 充分 地 利用 了 电缆 带宽 。 利 用 一 种 聪明 的 分 配 算法 ， 它 们 随 着 时 间 自 动 学 习 
”哪个 主机 可 以 通过 哪个 端口 可 达 ， 然 后 只 在 有 必要 时 ， 有 选择 地 将 帧 从 一 个 端口 拷贝 到 另 一 个 端 
口 。 例 如 ， 如 果 主 机 A 发 送 一 个 帧 到 同 网 段 上 的 主机 B， 当 该 帧 到 达 网 桥 XX 的 输入 端口 时 ，X 
就 将 丢弃 此 帧 ， 因 而 节省 了 其 他 网 段 上 的 带宽 。 然 而 ， 如 果 主 机 A 发 送 一 个 帧 到 一 个 不 同 网 段 
上 的 主机 C， 那 么 网 桥 X 只 会 把 此 帧 拷贝 到 和 网 桥 Y 相连 的 端口 上 ， 网 桥 Y 会 只 把 此 帧 拷贝 到 
与 主机 C 的 网 段 连 接 的 端口 。 

为 了 简化 局 域 网 的 表示 ， 我 们 将 把 集线器 和 网 桥 以 及 连 
接 它 们 的 电缆 画 成 一 根 水 平 线 ， 如 图 11-5 所 示 。 

在 层次 的 更 高 级 别 中 ， 多 个 不 兼容 的 局 域 网 可 以 通过 
叫做 路 由 器 (router) 的 特殊 计算 机 连接 起 来 ， 组 成 一 个 
internet (互联 网 络 )。 图 11-5 局 域 网 的 概念 视图 





Internet 和 internet 
我 们 总 是 用 小 写字 母 的 internet 描述 一 般 概念 ， 而 用 大 写字 母 的 Internet 来 描述 一 种 具体 的 
实现 ， 也 就 是 所 谓 的 全 球 IP 因特网 。 


每 台 路 由 器 对 于 它 所 连接 到 的 每 个 网 络 都 有 一 个 适配器 《〈 端 口 )。 路 由 器 也 能 连接 高 速 点 
到 点 电话 连接 ， 这 是 称 为 WAN (Wide-Area Network， 广 域 网 ) 的 网 络 示例 ， 之 所 以 这 么 叫 是 
因为 它们 覆盖 的 地 理 范围 比 局 域 网 的 大 。 一 般 而 言 ， 路 由 器 可 以 用 来 由 各 种 局 域 网 和 广域网 构 
建 互联 网 络 。 例 如 ， 图 11-6 展示 了 一 个 互联 网 络 的 示例 ，3 台 路 由 器 连接 了 一 对 局 域 网 和 一 对 
广域网 。 


www.lopSage.com 
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图 11-6 一 个 小 型 的 互联 网 络 。 两 个 局 域 网 和 两 个 广域网 用 三 台 路 由 器 连接 起 来 


互联 网 络 至 关 重 要 的 特性 是 ， 它 能 由 采用 完全 不 同和 不 兼容 技术 的 各 种 局 域 网 和 广域网 组 
成 。 每 台 主 机 和 其 他 每 台 主 机 都 是 物理 相连 的 ， 但 是 如 何 能 够 让 某 台 源 主 机 跨 过 所 有 这 些 不 兼容 
的 网 络 发 送 数据 位 到 另 一 台 目 的 主机 呢 ? 

解决 办 法 是 一 层 运 行 在 每 台 主 机 和 路 由 器 上 的 协议 软件 ， 它 消除 了 不 同 网 络 之 间 的 差异 。 这 
个 软件 实现 一 种 协议 ， 这 种 协议 控制 主机 和 路 由 器 如 何 协 同 工 作 来 实现 数据 传输 。 这 种 协议 必须 
提供 两 种 基本 能 力 : 

。 命 名 机 制 。 不 同 的 局 域 网 技术 有 不 同和 不 兼容 的 方式 来 为 主机 分 配 地 址 。 互 联网 络 协议 通 

过 和 定义 一 种 一 致 的 主机 地 址 格式 消除 了 这 些 差异 。 每 台 主 机 会 被 分 配 至 少 一 个 这 种 互联 网 
络 地 址 (internet address)， 这 个 地 址 唯一 地 标识 了 这 人 台 主 机 。 

"传送 机 制 。 在 电缆 上 编码 位 和 将 这 些 位 封装 成 帧 方面 ， 不 同 的 联网 技术 有 不 同 的 和 不 兼容 
的 方式 。 互 联网 络 协议 通过 定义 一 种 把 数据 位 捆扎 成 不 连续 的 片 〈 称 为 包 ) 的 统一 方式 ， 
从 而 消除 了 这 些 差异 。 一 个 包 是 由 包头 和 有 效 载荷 组 成 的 ， 其 中 包头 包括 包 的 大 小 以 及 源 
主机 和 目的 主机 的 地 址 ， 有 效 载 荷包 括 从 源 主机 发 出 的 数据 位 。 

图 11-7 展示 了 一 个 主机 和 路 由 器 如 何 使 用 互联 网 络 协议 在 不 兼容 的 局 域 网 间 传 送 数 据 的 示 
例 。 这 个 互联 网 络 示例 由 两 个 局 域 网 通过 一 全 路 由 器 连接 而 成 。 一 个 客户 端 运行 在 主机 人 A 上 ， 

主机 A 与 LAN1 相连 ， 它 发 送 了 一 串 数据 字 节 到 运行 在 主机 B 上 的 服务 器 端 ， 主机 B 则 连接 在 
LAN2 上 。 这 个 过 程 包括 8 个 基本 步 又 ; 

1) 运行 在 主机 A 上 的 客户 端 进 行 了 一 个 系统 调用 ， 从 客户 端的 虚拟 地 址 空间 拷贝 数据 到 内 
核 缓 冲 区 中 。 

2) 主机 A 上 的 协议 软件 通过 在 数据 前 附 加 互联 网 络 包头 和 LANI1 帧 头 ， 创建 了 一 个 LANI1 
的 帧 。 互 联网 络 包 头 寻 址 到 互联 网 络 主机 B。LAN1 帧 头 寻 址 到 路 由 器 。 然 后 它 传送 此 帧 到 适 配 
器 。 注 意 , LAN1 帧 的 有 效 载荷 是 一 个 互联 网 络 包 ， 而 互联 网 络 包 的 有 效 载 荷 是 实际 的 用 户 数据 。 
这 种 封装 是 基本 的 网 络 互联 方法 之 一 。 

3) LAN1 适配器 拷贝 该 帧 到 网 络 上 。 

4) 当 此 帧 到 达 路 由 器 时 ， 路 由 器 的 LAN1 适配器 从 电缆 上 读 取 它 ， 并 把 它 传送 到 协议 
软件 。 

5) 路 由 器 从 互联 网 络 包头 中 提取 出 目的 互联 网 络 地 址 ， 并 用 它 作为 路 由 表 的 索引 ， 确 定向 
哪里 转发 这 个 包 ， 在 本 例 中 是 LAN2。 路 由 器 剥落 旧 的 LANI1 1 的 帧 头 ， 加 上 寻 址 到 主机 B 的 新 
的 LAN2 帧 凑 ， 并 把 得 到 的 帧 传送 到 运 配 器 。 

6) 路 由 器 的 LAN2 适配器 拷贝 该 帧 到 网 络 上 。 

7) 当 此 帧 到 达 主 机 B 时 ， 它 的 适配器 从 电缆 上 读 到 此 帧 ， 并 将 它 传送 到 协议 软件 。 

8) 最 后 ， 主 机 B 上 的 协议 软件 剥落 包头 和 帧 头 。 当 服务 器 进行 一 个 读 取 这 些 数据 的 系统 调 
用 时 ， 协 议 软 件 最 终 将 得 到 的 数据 拷贝 到 服务 器 的 虚拟 地 址 空间 。 


618 。 霜 三 帝 分 在 序 间 的 交 互 和 通信 


主机 A 主机 B 
客户 端 服务 端 
(1 [CE CD] 
互联 网 络 协议 软件 协议 软件 
| D 
(2) [数据 [PH [ra ' (7) [数据 |PH |FH2 
一 一 一 ! 






LANI1 帧 LAN2 
z 适配器 
(3) ! (0) [Cg [ra [ra 
| 1 
LAN2 帧 LAN2 
| ! /一 一 一 全 一 一 ~ 
(4)| 数据 |PH |FHI | 数据 |PH |FH2] (5) 


协议 软件 


图 11-7 在 互联 网 络 上 ， 数 据 是 如 何 从 一 台 主 机 传送 到 另 一 台 主机 的 。 关 键 词 , PH , 互联 网 络 包头 ， 
FEFH1 : LANI 的 帧 头 ; FH2 : LAN2 的 帧 头 


当然 ， 在 这 里 我 们 掩盖 了 许多 很 难 的 问题 。 如 果 不 同 的 网 络 有 不 同 帧 大 小 的 最 大 值 ， 该 怎么 办 
呢 ? 路 由 器 如 何 知 道 该 往 哪 里 转发 帧 呢 ? 当 网 络 拓扑 变化 时 ， 如 何 通知 路 由 器 ? 如 果 一 个 包 丢 失 
了 又 会 如 何 呢 ? 虽然 如 此 ， 我 们 的 示例 抓 住 了 互联 网 络 思想 的 精髓 ， 封 装 是 关键 。 


11.3 全球 IP 因特网 


全 球 瑟 因特网 是 最 著名 和 最 成 功 的 互联 网 络 实现 。 从 1969 年 起 ， 它 就 以 这 样 或 那样 的 形式 
存在 了 。 虽 然 因 特 网 的 内 部 体系 结构 复杂 而 且 不 断 变化 ， 但 是 自从 20 世纪 80 年 代 早期 以 来 ， 客 
户 端 - 服务 器 应 用 的 组 织 就 一 直 保持 相当 的 稳定 。 图 11-8 展示 了 一 个 因特网 客户 端 一 服务 器 应 
用 程序 的 基本 硬件 和 软件 组 织 。 每 台 因 特 网 主机 都 运行 实现 TCP/IP 协议 (Transmission Control 
Protocol/Internet Protocol， 传 输 控制 协议 /互联 网 络 协议 ) 的 软件 ， 几 乎 每 个 现代 计算 机 系统 都 
支持 这 个 协议 。 因 特 网 的 客户 端 和 服务 器 混合 使 用 套 接 字 接 口 函 数 和 Unix VO 函数 来 进行 通信 
(我 们 将 在 11.4 节 中 介绍 套 接 字 接 口 )。 套 接 字 函 数 典 型 地 是 作为 会 陷入 内 核 的 系统 调用 来 实现 
的 ， 并 调用 各 种 内 核 模式 的 TCP/IP 函数 。 


互联 网 络 客户 端 主 互联 网 络 服务 器 主机 
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TCP/IP 实际 上 是 一 个 协议 族 ， 其 中 每 一 个 都 提供 不 同 的 功能 。 例 如 ，IP 协议 提供 基本 的 
命名 方法 和 递送 机 制 ， 这 种 递送 机 制 能 够 从 一 台 因 特 网 主机 往 其 他 主机 发 送 包 ， 也 叫做 数据 报 
(datagram)。IP 机 制 从 某 种 意义 上 而 言 是 不 可 靠 的 ， 因 为 ， 如 果 数 据 报 在 网 络 中 丢失 或 者 重复 ， 
它 并 不 会 试图 恢复 .UDP(Unreliable Datagram Protocol， 不 可 靠 数 据 报 协议 ) 稍微 扩展 了 IP 协议 ， 
这 样 一 来 ， 包 可 以 在 进程 间 而 不 是 在 主机 间 传 送 。TCP 是 一 个 构建 在 IP 之 上 的 复杂 协议 ， 提 供 
了 进程 间 可 靠 的 全 双 工 (双向 的 ) 连接 。 为 了 简化 讨论 ， 我 们 将 TCP/IP 看 做 是 一 个 单独 的 整体 
协议 。 我 们 将 不 讨论 它 的 内 部 工作 ， 只 讨论 TCP 和 了 P 为 应 用 程序 提供 的 某 些 基本 功能 。 我 们 将 
不 讨论 UDP。 

从 程序 员 的 角度 ， 我 们 可 以 把 因特网 看 做 一 个 世界 范围 的 主机 集合 ， 满 足以 下 特性 : 

“ 主机 集合 被 映射 为 一 组 32 位 的 IP 地 址 。 

。 这 组 IP 地 址 被 映射 为 一 组 称 为 因特网 域名 (Internet domain name) 的 标识 符 。 

。 因特网 主机 上 的 进程 能 够 通过 连接 〈connection) 和 任何 其 他 因特网 主机 上 的 进程 通信 。 

接 下 来 的 三 节 将 更 详细 地 讨论 这 些 基 本 的 因特网 概念 。 

11.3.1 “IP 地 址 
一 个 了 PP 地址 就 是 一 个 32 位 无 符号 整数 。 网 络 程序 将 IP 地 址 存放 在 如 图 11-9 所 示 的 IP 地址 


— netinet/in.h 
/* Internet address structure */ - 
struct in_addr { 
unsigned int s_addr; /* Network byte order (big-endian) */ 


netinet/in.h 


图 11-9 IP 地址 结构 


为 什么 要 用 结构 来 存放 标量 IP 地 址 ? 
把 一 个 标量 地 址 存放 在 结构 中 ， 是 套 接 字 接 口 早 期 实现 的 不 幸 产 物 。 为 卫 地 址 定义 一 个 标 
量 类 型 应 该 更 有 意义 ， 但 是 现在 更 改 已 经 太 迟 了 ， 因 为 已 经 有 大 量 应 用 是 基于 此 的 了 。 


因为 因特网 主机 可 以 有 不 同 的 主机 字 节 顺序 ，TCP/P 为 任意 整数 数据 项 定义 了 统一 的 网 络 
字 节 顺序 (network byte order)( 大 端 字 节 顺序 )， 例 如 IP 地 址 ， 它 放 在 包头 中 跨 过 网 络 被 携带 。 
在 IP 地 址 结构 中 存放 的 地 址 总 是 以 (大 端 法 ) 网 络 字 节 顺序 存放 的 ， 即 使 主机 字 节 顺序 (host 
byte order) 是 小 端 法 。Unix 提供 了 下 面 这 样 的 函数 在 网 络 和 主机 字 节 顺序 间 实 现 转换 : 


#include <netinet/in.h> 


unsigned long int htonl(unsigned long int hostlong); 
unsigned short int htons(unsigned short int hostshort); 


返回 : 按照 网 络 字 节 顺 序 的 值 。 
unsigned long int ntohl(unsigned long int netlong); 
unsigned short int ntohs(unsigned short int netshort); 


返回 : 按照 主机 字 节 顺序 的 值 。 





htonl 函数 将 32 位 整数 由 主机 字 节 顺序 转换 为 网 络 字 节 顺 序 。ntohl 函数 将 32 位 整数 从 
网 络 字 节 顺序 转换 为 主机 字 节 。htons 和 ntohs 函数 为 16 位 的 整数 执行 相应 的 转换 。 z 
IP 地 址 通常 是 以 一 种 称 为 点 分 十 进 制 表示 法 来 表示 的 ， 这 里 ， 每 个 字 节 由 它 的 十 进 制 值 表示 ， 


620 。 著 三 记分 程序 间 的 交互 开通 从 
并 且 用 句点 和 其 他 字 节 间 分 开 。 例 如 ，128.2.194.242 就 是 地 址 0x8002c2f2 的 点 分 十 进 制 表 
示 。 在 Linux 系统 上 ， 你 能 够 使 用 HOSTNAME 命令 来 确定 你 目 己 主机 的 点 分 十 进 制 地 址 ; 


lJinux> hostname -i 
128 .2.194.242 


因特网 程序 使 用 inet_aton 和 inet_ntoa 函数 来 实现 卫 地 址 和 点 分 十 进 制 串 之 间 的 转换 : 


#include <arpa/inet.h> 


int inet_aton(const char *cp, struct in_addr *inp) ; 


返回 : 若 成 功 则 为 1， 若 出 错 则 为 0。 


char *inet_ntoa(struct in_addr in); 


返回 : 指向 点 分 十 进 制 字符 串 的 指针 。 





inet_aton 函数 将 一 个 点 分 十 进 制 串 〈cp) 转换 为 一 个 网 络 字 节 顺 序 的 中 地 址 (inp)。 相 
似 地 ，inet _ntoa 函数 将 一 个 网 络 字 节 顺 序 的 他 地 址 转换 为 它 所 对 应 的 点 分 十 进 制 串 。 注 意 ， 
对 inet_aton 的 调用 传递 的 是 指向 结构 的 指针 ， 而 对 inet_ntoa 的 调用 传递 的 是 结构 本 身 。 


ntoa 和 aton 是 什么 意思 ? 
“Nn” 表示 的 是 网 络 (network)。“a” 表 示 应 用 (application)。 而 “to” 表示 转换 。 


El 练习 题 11.1 ”完成 下 表 : 


点 分 十 进 制 地 址 











十 六 进 制 地 址 

0 
ff 
oo0000l | 
| 
| 
| 205.188.14623 


号 玉 练 习题 11.2 编写 程序 hex2dd.c， 它 将 十 六 进 制 参数 转换 为 点 分 十 进 制 嘻 并 打印 出 结果 。 合 如 








unix> ./hex2dd Ox8002c2f2 
128.2.194.242 


本 练习 题 11.3 ”编写 程序 dd2hex.c， 它 将 它 的 点 分 十 进 制 参数 转换 为 十 六 进 制 数 并 打印 出 结果 。 例 如 





unix> ./dd2hex 128.2.194 .242 
Ox8002c2f2 


11.3.2 ”因特网 域名 : 
因特网 客户 端 和 服务 器 互相 通信 时 使 用 的 是 卫 地 址 。 然 而 ， 对 于 人 们 而 言 ， 大 整数 是 很 难 
记 住 的 ， 所 以 因特网 也 定义 了 一 组 更 加 人 性 化 的 域名 〈domain name)， 以 及 一 种 将 域名 映射 到 
IP 地 址 的 机 制 。 域 名 是 一 串 用 句点 分 隔 的 单词 字母、 数字 和 破 折 号 )， 例 如 


kittyhawk.cmcl.cs.cmu.edu 
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域名 集合 形成 了 一 个 层次 结构 ， 每 个 域名 编码 了 它 在 这 个 层次 中 的 位 置 。 通 过 一 个 示例 你 将 
很 容易 理解 这 点 。 图 11-10 展示 了 域名 层次 结构 的 一 部 分 。 层 次 结构 可 以 表示 为 一 村 树 。 树 的 市 
点 表示 域名 ， 反 向 到 根 的 路 径 形成 了 域名 。 子 树 称 为 子 域 (subdomain)。 层 次 结构 中 的 第 一 层 是 
一 个 未 命名 的 根 节 点 。 下 一 层 是 一 组 一 级 域名 (first-level domain name)， 由 非 赢利 组 织 ICANN 
(Internet Corporation for Assigned Names and Numbers， 因 特 网 分 配 名 字数 字 协 会 ) 定义 。 常 见 的 
第 一 层 域名 包括 com、edu、gov、org 和 net。 

下 一 层 是 二 级 (second-level) 域名 ， 例 如 cmu.edu， 这 些 域名 是 由 ICANN 的 各 个 授权 代 
理 按照 先 到 先 服 务 的 基础 分 配 的。 一 旦 一 个 组 织 得 到 了 一 个 二 级 域名 ， 那 么 它 就 可 以 在 这 个 子 域 
中 创建 任何 新 的 域名 了 。 四 


未 命名 的 根 





mil edu gov com 第 一 层 域名 
mit cmu berkeley amazon 第 二 层 域名 
cs ece www 第 三 层 域名 
pA 208.216.181.15 
cmcl pdl 
kittyhawk imperial 


128.2.194.242 128.2.189.40 
图 11-10 因特网 域名 层次 结构 的 一 部 分 


因特网 定义 了 域名 集合 和 IP 地 址 集合 之 间 的 映射 。 直 到 1988 年 ， 这 个 映射 都 是 通过 一 个 叫 
做 HOSTS .TXT 的 文本 文件 来 手工 维护 的 。 从 那 以 后 ， 这 个 映射 是 通过 分 布 世 界 范围 内 的 数据 库 
( 称 为 DNS (Domain Name System， 域 名 系统 )) 来 维护 的 。 从 概念 上 而 言 ，DNS 数据 库 由 上 
百 万 的 如 图 11-11 所 示 的 主机 条 目 结构 (host entry structure) 组 成 的 ， 其 中 每 条 定义 了 一 组 域名 
(一 个 官方 名 字 和 一 组 别名 ) 和 一 组 人 P 地 址 之 间 的 映射 。 从 数学 意义 上 讲 ， 你 可 以 认为 每 条 主机 
条 目 就 是 一 个 域名 和 IP 地 址 的 等 价 类 。 


netdb.h 
/* DNS host entry structure */ 
struct hostent { 
char *h_name; /* Official domain name of host */. 
char  **h_aliases; /* Null-terminated array of domain names #/ 
int h_addrtype; /+ Host address type (AF._INET) */ 
int h_length; /* Length of an address, in bytes */ 


“char **h_addr_list; /* Null-terminated array of in_addr structs */. - 


netdb.h / 
图 11-11 DNS 主机 条 目 结构 ， - 


因特网 应 用 程序 通过 调用 gethostbyname 和 gethostbyadar 函数 ， 从 DNS 数据 库 中 
检索 任意 的 主机 条 目 。 


Www.lopSage.com 


622 幕 三 疤 分 程序 闻 的 交互 和 通信 


#include <netdb .h> 


struct hostent *gethostbyname (const char *name); 


返回 : 若 成 功 则 为 非 NULL 指针 ， 若 出 错 则 为 NULL 指针 ， 同 时 设置 h_errno。 
struct hostent *gethostbyaddr(const char *addr, int len, 0); 
返回 : 车 成 功 则 为 非 NULL， 若 出 错 则 为 NULL 指针 ， 同 时 设置 h_errno。 





eels ae 函数 返回 和 域名 name 相关 的 主机 条 目 。gethostbyaddr 函数 返回 和 
IP 地 址 addr 相关 联 的 主机 条 目 。 第 二 个 参数 给 出 了 一 个 PP 地址 的 字 节 长 度 ， 对 于 目前 的 因 特 
网 而 言 总 是 四 个 字 节 。 对 于 我 们 的 要 求 来 说 ， 第 三 个 参数 总 是 零 。 


code/netp/hostinfo.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 二 
5 char **pp; 
6 struct in_addr addr; 
7 struct hostent *hostp; 
8 
9 if (argc != 2) { 
10 fprintf (stderr, "usage: %s <domain name or dotted-decimal>\n", 
11 argv [0]); 
12 exit (0); 
13 } 
14 
15 if (inet_aton(argv[1], &addr) != 0) 
16 hostp = Gethostbyaddr((const char *)&addr, sizeof (addr) ，AF_INET) ; 
17 else 
18 hostp = Gethostbyname(argv [1]); 
19 
20 ~ printf("official hostname: %s\n", hostp->h_name); 
21 
22 for (pp = hostp->h_aliases; *pp != NULL; pp++) 
23 printf("alias: %s\n", *pp); 
24 
25 for (pp = hostp->h_addqr_list; *pp != NULL; pp++) 二 
26 addr.s_addr = ((struct in_addr *)*pp)->s_addr; 
27 printf("address: %s\n", inet_ntoa(addr)); 
28 
29 exit (0); 
30 3} 
code/netp/hostinfo.c 


图 11-12 检索 并 打印 一 个 DNS 主机 条 目 


我 们 可 以 借助 图 11-12 中 的 hostinfo 程序 来 挖掘 一 些 DNS 映射 的 特性 ， 这 个 程序 从 命令 
行 读 取 一 个 域名 或 点 分 十 进 制 地 址 ， 并 显示 相应 的 主机 条 目 。 每 台 因 特 网 主机 都 有 本 地 定义 的 域 
名 localhost， 这 个 域名 总 是 上 映射 为 本 地 回 送 地 址 (loopback address) 127.0.0.1: 


unix> ./hostinfo localhost 
official hostname: localhost 
alias: localhost.localdomain 
address: 127.0.0.1 
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localhost 名 字 为 引用 运行 在 同一 台 机 器 上 的 客户 端 和 服务 器 提供 了 一 种 便利 和 可 移植 的 
方式 ， 这 对 调试 相当 有 用 。 我 们 可 以 使 用 HOSTNAME 来 确定 本 地 主机 的 实际 域名 : 


unix> hostname 
bljuefish.ics.cs.cmu.edu 


在 最 简单 的 情况 下 ， 一 个 域名 和 一 个 IP 地 址 之 间 是 一 一 映射 的 : 


unix> ./hostinfo bluefish.ics.cs.cmu.edu 
official hostname: bluefish.ics.cs.cmu.edu 
alias: bluefish.alias.cs.cmu.edu 

address: 128.2.205.216 


然而 ， 在 某 些 情况 下 ， 多 个 域名 可 以 映射 为 同一 个 IP 地 址 : 


Unix> ./hostinfo cs.mit.edu 
official hostname: eecs.mit.edu 
alias: cs.mit.edu 

address: 18.62.1.6 


I DA 


unix> alee go0ogle.: com 
official hostname: google.com 
address: 74.125.45.100 
address: 74.125.67.100 
address: 74.125.127.100 


最 后 ， 我 们 注意 到 某 些 合法 的 域名 没有 映射 到 任何 IP 地 址 : 


unix> ./hostinfo edu 

Gethostbyname error: No address associated with name 
unix> ./hostinfo cmcl.cs.cmu.edu 

Gethostbyname error: No address associated with name 


有 多 少 因特网 主机 ? 

因特网 软件 协会 《Internet Software Consortium,， Www.isc.org) 自从 1987 年 以 后 ， 每 年 进行 两 
次 因特网 域名 调查 。 这 个 调查 通过 计算 已 经 分 配给 一 个 域名 的 人 P 地 址 的 数量 来 估算 因特网 主机 
的 数量 ， 展 示 了 一 种 令 人 吃惊 的 趋势 。 自 从 1987 年 以 来 ， 当 时 一 共 大 约 有 20 000 台 因特网 主机 ， 
每 年 主机 数量 都 大 概 会 翻 一 一 益 。 到 2009 年 6 月， 全 球 已 经 有 大 约 700 000 000 台 因 特 网 主机 了 。 


区 人 | 练习 题 11.4 ”编译 图 11-12 中 的 HOSTINFO 程序 。 然 后 在 你 的 系统 上 连续 运行 hostinfo google.com 三 次 。 

A. 在 三 个 主机 条 目的 IP 地 址 顺序 中 ， 你 注意 到 了 什么 ? 

”B. 这 种 顺序 有 何 作用 ? 
11.3.3 ”因特网 连接 有 

因特网 客户 端 和 服务 器 通过 在 连接 上 发 送 和 接收 字 节 流 来 通信 。 从 连接 一 对 进程 的 意义 上 而 

言 ， 连 接 是 点 对 点 的 。 从 数据 可 以 同时 双向 流动 的 角度 来 说 ， 它 是 全 双 工 的 。 并 且 从 〈 除 了 一 些 
如 粗心 的 耕 钢 机 操作 员 切 断 了 电缆 引起 灾难 性 的 失败 以 外 ) 由 源 进程 发 出 的 字 节 流 最 终 被 目的 进 
程 以 它 发 出 的 顺序 收 到 它 的 角度 来 说 ， 它 也 是 可 靠 的 。 

一 个 套 接 字 是 连接 的 一 个 端点 。 每 个 套 接 字 都 有 相应 的 套 接 字 地 址 ， 是 由 一 个 因特网 地 址 和 
一 个 16 位 的 整数 端口 组 成 的 ， 用 “地 址 : 端口 ”来 表示 。 当 客户 端 发 起 一 个 连接 请 求 时 ， 客 户 
端 套 接 字 地 址 中 的 端口 是 由 内 核 自动 分 配 的 ， 称 为 临时 端口 (ephemeral port)。 然 而 ， 服 务 器 套 
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接 字 地 址 中 的 端口 通常 是 某 个 知名 的 端口 ， 是 和 这 个 服务 相对 应 的 。 例 如 ，Web 服务 器 通常 使 用 
端口 80， 而 电子 邮件 服务 器 使 用 端口 25。 在 Unix 机 器 上 ， 文 件 /etc/services 包含 一 张 这 
台 机 器 提供 的 服务 以 及 它们 的 知名 端口 号 的 综合 列表 。 

一 个 连接 是 由 它 两 端的 套 接 字 地 址 唯一 确定 的 。 这 对 套 接 字 地 址 叫做 套 接 字 对 (socket 
pair)， 由 下 列 元 组 来 表示 : 


(cliaddr:cliport, servaddr:servport) 
其 中 cliaddr 是 客户 端的 IP 地 址 ,cliport 是 客户 端的 端口 ，servaddr 是 服务 器 的 IP 地 址 ， 


而 servport 是 服务 器 的 端口 。 例 如 ， 图 11-13 展示 了 一 个 Web 客户 端 和 一 个 Web 服务 器 之 间 
的 连接 。 


客户 端 套 接 字 地 址 服务 器 套 接 字 地 址 
128.2.194.242:51213 208.216.181.15:80 










服务 需 
(port 80) 







连接 套 接 字 对 
Lv 一 (128.2.194.242:51213，208.216.181.15:80) 


窜 庆 端 主机 地 址 和 大 
128.2.194.242 208.216.181.15 
图 11-13 因特网 连接 分 析 z 


在 这 个 示例 中 ，Web 客户 端的 套 接 字 地 址 是 
128.2.194.242:51213 

其 中 端口 号 51213 是 内 核 分 配 的 临时 端口 号 。Web 服务 器 的 套 接 字 地 址 是 
208 .216.181.15:80 


其 中 端口 号 80 是 和 Web 服务 相 关联 的 知名 端口 号 。 给 定 这 些 客户 端 和 服务 器 套 接 字 地 址 ， 客 户 
端 和 服务 器 之 间 的 连接 就 由 下 列 套 接 字 对 唯一 确定 了 : 


(128.2.194. cn 51213, 1208.216.181.15:80) 


因特网 的 起 源 

因特网 是 政府 、 学 校 和 工业 界 合作 的 最 成 功 的 示例 之 一 。 它 成 功 的 因素 很 多 ， 但 是 我 们 认为 
有 两 点 尤其 重要 : 美国 政府 30 年 持续 不 变 的 投 及 资 ， 以 及 充满 激情 的 研究 人 员 对 麻 省 理工 学 院 的 
Dave Clarke 提出 的 “粗略 一 致 和 能 用 的 代码 ”的 投入 。 

因特网 的 种 子 是 在 1957 年 播 下 的 ， 当 时 正 值 冷战 的 高 峰 ， 苏 联 发 射 Sputnik， 第 一 颗 人 造 地 
球 卫 星 ， 震 惊 了 世界 。 作 为 响应 ， 美 国政 府 创 建 了 高 级 研究 计划 署 (ARPA)， 其 任务 就 是 重建 
美国 在 科学 与 技术 上 的 领导 地 位 。1967 年 ，ARPA 的 Lawrence Roberts 提出 了 一 个 计划 ， 建 立 
一 个 叫做 ARPANET 的 新 网 络 。 第 一 个 ARPANET 市 点 是 在 1969 年 建立 并 运行 的 。 到 1971 年 ， 
已 有 13 个 ARPANET 节点 了 ， 而 且 E-mail 作为 第 一 个 重要 的 网 络 应 用 涌现 出 来。 

”1972 年 ，Robert Kahn 概括 了 网 络 互联 的 一 般 原则 : 一 组 互相 连接 的 网 络 ， 通 过 叫做 “路 
由 器 ”的 黑 盒 子 按照 “尽力 传送 基础 ” 在 互相 独立 处 理 的 网 络 间 实现 通信 。 1974 年 ，Kahn 和 
Vinton Cerf 发 表 了 TCP/IP 协议 的 第 一 本 详细 资料 ， 到 1982 年 它 成 为 了 ARPANET 的 标准 网 络 互 
联 协议 。1983 年 1 月 1 日 ， ARPANET 的 每 个 节点 都 切换 到 TCP/IP, 标志 着 全 球 卫 0 

1985 年 ，Paul Mockapetris 发 明了 DNS,， 有 1 000 多 台 因特网 主机 。1986 年 ， 国 家 科学 
会 (NSF) 用 56KB/s 的 电话 线 连接 了 13 个 节点 ， 构 建 了 NSFNET 的 骨干 网 。 其 后 在 1988 
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级 到 1.5MB/s Tl 的 连接 速率 ，1991 年 为 45MB/s T3 的 连接 速率 。 到 1988 年 ， 有 超过 50 000 台 
主机 。1989 年 ， 原 始 的 ARPANET 正式 退休 了 。1995 年 ， 已 经 有 几乎 10 000 000 台 因 特 网 主机 
了 ，NSF 取消 了 NSFNET， 并 且 用 基于 由 公众 网 络 接 入 点 连接 的 私有 商业 骨干 网 的 现代 因特网 
架构 取代 了 它 。 


11.4 套 接 字 接 口 


套 接 字 接 口 (socket interface) 是 一 组 函数 ， 它 们 和 Unix IO 函数 结合 起 来 ， 用 以 创建 网 络 
应 用 。 大 多 数 现代 系统 上 都 实现 套 接 字 接 口 ， 包 括 所 有 的 Unix 变种 、Windows 和 Macintosh 系 
统 。 图 11-14 给 出 了 一 个 典型 的 客户 端 - 服务 器 事务 的 上 下 文中 的 套 接 字 接 口 概述 。 当 讨论 各 个 
函数 时 ， 你 可 以 使 用 这 张 图 来 作为 向 导 图 。 


客户 端 服务 器 
open_clientfd 
连接 请 求 






rio_readlineb 
= | 
客户 端的 连接 请 求 


图 11-14 套 接 字 接 口 概述 z 


套 接 字 接 口 的 起 源 

套 接 字 接 口 是 加 州 大 学 伯克利 分 校 的 研究 人 员 在 20 世纪 80 年 代 早 期 提出 的 。 因 为 这 个 
原因 ， 它 也 经 常 被 叫做 伯克利 套 接 字 。 伯 克利 的 研究 者 使 得 套 接 字 接 口 适用 于 任何 底层 的 协 
议 。 第 一 个 实现 的 就 是 针对 TCP/IP 协议 的 ， 他 们 把 它 包 括 在 Unix 4.2 BSD 的 内 核 里 ， 并 且 
分 发 给 许多 学 校 和 实验 室 。 这 在 因特网 的 历史 上 是 一 个 重大 事件 。 几 乎 一 夜 之 间 ， 成 十 上 万 
的 人 们 接触 到 了 TCP/IP 和 它 的 源 代 码 。 它 引起 了 巨大 的 圳 动 ， 并 激发 了 新 的 网 络 和 网 络 互 
联 研 究 的 浪潮 。 
11.4.1 套 接 字 地 址 结构 

从 Unix 内 核 的 角度 来 看 ， 一 个 套 接 字 就 是 通信 的 一 个 端 太 。 从 Unix 程序 的 角度 来 看 ， 套 接 
字 就 是 一 个 有 相应 描述 符 的 打开 文件 。 : 

“因特网 的 套 接 字 地 址 存放 在 如 图 11-15 所 示 的 类 型 为 sockaddr in 的 :16 字 节 结构 中 。 对 
于 因特网 应 用 ，sin_family 成 员 是 AF_INET，sin port 成 员 是 一 个 16 位 的 端口 号 ， 而 
sin_addr 成 员 就 是 一 个 32 位 的 他 地 址 。IP 地 址 和 端口 号 总 是 以 网 络 字 节 顺序 (大 端 法 ) 存 
放 的 。 
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sockaddr: socketbits.h (included by socket.h), sockaddr _in: netinet/in.h 
/* Generic socket address structure (for connect, bind, and accept) */ 
struct sockaddr { 
unsigned Short sa._family; /* Protocol family */ 
char sa_data[14]; /* Address data. */ 
上 


/* Internet-style socket address structure */ 

struct sockaddr_in 荆 

; unsigned short sin_family; /* Address family (always AF_INET) */ 
unsigned short sin_port; /* Port number in network byte order */ 
struct in_addr sin_addr; /* IP address in network byte order */ 
unsigned char sin_zero[8]; /* Pad to sizeof(struct sockaddr) */ 


sockaddr: socketbits.h (included by socket.h), sockaddr _in: netinet/in.h 


图 11-15 ” 套 接 字 地 址 结构 。in_addr 结构 如 图 11-9 所 示 


_in 后 级 意味 什么 ? 
_in 后 缓 是 互联 网 络 (internet) 的 缩写 ， 而 不 是 输入 (input) 的 缩写 。 


connect、 bind 和 accept 消 数 要 求 一 个 指向 与 协议 相关 的 套 接 字 地 址 结构 的 指针 。 套 接 
字 接 口 的 设计 者 面临 的 问题 是 ， 如 何 定 义 这 些 函 数 ， 使 之 能 接受 各 种 类 型 的 套 接 字 地 址 结构 。 现 
在 ， 我 们 可 以 使 用 通用 的 void* 指针 ， 那 时 在 C 中 并 不 存在 这 种 类 型 的 指针 。 解 决 办 法 是 定义 
套 接 字 函数 要 求 一 个 指向 通用 sockaddr 结构 的 指针 ， 然 后 要 求 应 用 程序 将 与 协议 特定 的 结构 的 
指针 强制 转换 成 这 个 通用 结构 。 为 了 简化 代码 示例 ， 我 们 跟随 Steven 的 指导 ， 定 义 下 面 的 类 型 : 


typedef struct sockaddr SA ; 


然后 无 论 何 时 需要 将 sockaddr_in 结构 强制 转换 成 通用 sockaddr 结构 ， 我 们 都 使 用 这 个 类 
型 (参见 图 11-16 的 第 20 行 的 示例 )。 
11.4.2 socket 函数 

客户 端 和 服务 器 使 用 socket 函数 来 创建 一 个 套 接 字 描 述 符 (socket descriptor)。 


#include <sys/types.h> 
#include <sys/socket.h> 


int socket(int domain, int type, int protocol); 





返回 : 车 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 一 1。 


在 我 们 的 代码 中 总 是 带 这 样 的 参数 来 调用 socket 函数 : 


clientfd = Socket(AF_INET，SOCK_STREAM，0) ; 


其 中 ，AF_INET 表明 我 们 正在 使 用 因特网 ， 而 SOCK_STREAM 表示 这 个 套 接 字 是 因特网 连接 的 
一 个 端点 。socket 返回 的 clientfd 描述 符 仅 是 部 分 打开 的 ， 还 不 能 用 于 读 写 。 如 何 完成 打 
开 套 接 字 的 工作 ， 取 决 于 我 们 是 客户 端 还 是 服务 器 。 下 一 节 描 述 当 我 们 是 客户 端 时 如 何 完成 打开 
套 接 字 的 工作 。 
11.4.3 connect 函 数 

客户 端 通过 调用 connect 函数 来 建立 和 服务 器 的 连接 。 
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#include <sys/socket.h> 


int connect(int sockfd, struct sockaddr *serv_addr, int addrlen); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





connect 函数 试图 与 套 接 字 地 址 为 serv_addr 的 服务 器 建立 一 个 因特网 连接 ， 其 中 
addrlen 是 sizeof (sockaddr in)。connect 函数 会 阻塞 ， 一 直到 连接 成 功 建立 或 是 发 生 
错误 。 如 果 成 功 ，sockfd 描述 符 现在 就 准备 好 可 以 读 写 了 ， 并 且 得 到 的 连接 是 由 套 接 字 对 


(x:y, serv_addr.sin_addr:serv_addr.sin_port) 


刻画 的 ， 其 中 x 表示 客户 端的 卫 地 址 ， 而 y 表示 临时 端口 ， 它 唯一 地 确定 了 客户 端 主机 上 的 客 


户 端 进程 。 
11.4.4 open clientfd 函数 


我 们 发 现 将 socket 和 connect 函数 包装 成 一 个 叫做 open clientfa 的 辅助 阻 数 是 很 
方便 的 ， 客 户 端 可 以 用 它 来 和 服务 器 建立 连接 。 


#include "csapp.h" 


int open_clientfd(char *hostname, int port); 


返回 : 若 成 功 则 为 描述 符 ， 著 Unix 出 错 则 为 一 J-， 若 DNS 出 错 则 为 一 2。 





open clientfd 函数 和 运行 在 主机 hostname 上 的 服务 器 建立 一 个 连接 ， 并 在 知名 端口 
port 上 监听 连接 请 求 。 它 返回 一 个 打开 的 套 接 字 描述 符 ， 该 描述 符 准备 好 了 ， 可 以 用 Unix IO 
消 数 做 输入 和 输出 。 图 11-16 给 出 了 open_clientfd 的 代码 。 


code/src/csapp.c 
1 int open_clientfd(char *hostname, int port) 
.| 
3 int clientfd; 
4 struct hostent *hp; 
5 ‘struct sockaddr_in SerVeraddr ; 
6 
7 if ((clientfd = socket (AF_INET, SOCK_STREAM, 0)) < 0) 
8 return -1; /* Check errno for cause of error */ 
9 
10 /+* Fill in the server's IP address and port */ 
11 if ((hp = gethostbyname (hostname)) == NULL) 
12 return -2; /* Check h_errno for cause of error */ 
13 bzero((char *) &serveraddr, sizeof (serveraddr)); 
14 serveraddr .sin_family = AF_INET; 
15 bcopy((char *)hp->h_addr._1list [0], 
16 (char *)&serveraddr.sin_addr.s_addr, hp->h._length); 
17 serveraddr .Sin_port = htons (Port) ; 
18 
19 /* Establish a connection with the server */ 
20 if (connect(clientfd, (SA *) &serveraddr, sizeof (serveraddr)) < 0) 
21 return -1; 
22 return clientfd,; 
23  】 z 
code/src/csapp.c 


图 11-16 open clientfa: 和 服务 器 建立 连接 的 辅助 函数 
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在 创建 了 套 接 字 描 述 符 (第 7 行 ) 后 ， 我 们 检索 服务 器 的 DNS 主机 条 目 ， 并 拷贝 主机 条 
目 中 的 第 一 个 卫 地 址 (已 经 是 按照 网 络 字 节 顺序 了 ) 到 服务 器 的 套 接 字 地 址 结构 (第 11 ~ 16 
行 )。 在 用 按照 网 络 字 节 顺序 的 服务 器 的 知名 端口 号 初始 化 套 接 字 地 址 结构 〈 第 17 行 ) 之 后 ， 我 
们 发 起 了 一 个 到 服务 器 的 连接 请 求 (第 20 行 )。 当 connect 函数 返回 时 ， 我 们 返回 套 接 字 描 述 
符 给 客户 端 ， 客 户 端 就 可 以 立即 开始 用 Unix IO 和 服务 器 通信 了 。 
11.4.5 bing 函数 

剩 下 的 套 接 字 函数 bind、1isten 和 accept 被 服务 器 用 来 和 客户 端 建 立 连接 。 


#include <sys/socket.h> 


int bind(int sockfd, struct sockaddr *my_addr, int addrlen); 
返回 ; 车 成 功 则 为 0， 若 出 错 则 为 一 1。 





bind 函数 告诉 内 核 将 my_addr 中 的 服务 器 套 接 字 地 址 和 套 接 字 描述 符 sockfd 联系 起 来 。 
参数 addrlen 就 是 sizeof (sockaddr in)。 
11.4.6 ”1isten 函数 

客户 端 是 发 起 连接 请 求 的 主动 实体 。 服 务 器 是 等 待 来 自 客户 端的 连接 请 求 的 被 动 实体 。 上 默 
认 情 况 下 ， 内 核 会 认为 socket 哨 数 创建 的 描述 符 对 应 于 主动 套 接 字 (active socket)， 它 存在 
于 一 个 连接 的 客户 端 。 服 务 器 调用 1isten 函数 告诉 内 核 ， 描 述 符 是 被 服务 器 而 不 是 客户 端 使 
用 的 。 


#include <sys/socket .h> 


int listen(int sockfd, int backlog); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





1isten 困 数 将 sockfd 从 一 个 主动 套 接 字 转 化 为 一 个 监听 套 接 字 (listening socket)， 该 套 
接 字 可 以 接受 来 自 客户 端的 连接 请 求 。backlog 参数 暗示 了 内 核 在 开始 拒绝 连接 请 求 之 前 ， 应 
该 放 和 队列 中 等 待 的 未 完成 连接 请 求 的 数量 。back1og 参数 的 确切 含义 要 求 对 TCP/IP 协议 的 理 
解 ， 这 超出 了 我 们 讨论 的 范围 。 通 常 我 们 会 把 它 设 置 为 一 个 较 大 的 值 ， 比 如 1024。 
11.4.7 open listenfd 函数 

我 们 发 现 将 socket、bind 和 1isten 函数 结合 成 一 个 叫做 open Listenfd 的 辅助 函数 
是 很 有 帮助 的 ， 服 务 器 可 以 用 它 来 创建 一 个 监听 描述 符 。 


#include "csapp.h" 


int open._listenfd(int port); 





返回 : 若 成 功 则 为 描述 符 ， 若 Unix 出 错 则 为 一 1。 


open_listenfd 函数 打开 和 返回 一 个 监听 描述 符 ， 这 个 描述 符 准 备 好 在 知名 端口 port 上 
接收 连接 请 求 。 图 11-17 展示 了 open_1istenfd 的 代码 。 在 我 们 创建 了 1istenfd 套 接 字 描 
述 符 之 后 ， 我 们 使 用 setsockopt 函数 〈 在 这 里 没有 描述 ) 来 配置 服务 器 ， 使 得 它 能 被 立即 终 
止 和 重启 。 默 认 地 ， 一 个 重启 的 服务 器 将 在 大 约 30 CO 严重 地 阻碍 了 
调试 。 
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code/src/csapp.c 
1 int open._listenfd(int port) 
2 
3 int listenfd, optval=1; 
4 struct sockaddr_in serveraddr; 
5 
6 /* Create .a socket descriptor */ 
7 if ((listenfd = socket (AF_INET, SOCK_STREAM, 0)) < 0) 
8 return -1; 
9 > 
10 /x* Eliminates "Address already in use" error from bind */ 
11 if (setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 
12 (const void *)&optval , sizeof(int)) < 0) 
13 return -1,; 
14 
15 /* Listenfd will be an end point for all requests to port 
16 on any IP address for this host */ 
17 bzero((char *) &serveraddr, sizeof (serveraddr)); 
18 serveraddr .sin_family = AF_INET; 
19 serveraddr .sin_addr.s_addr = htonl (INADDR_ANY);, 
20 serveraddr .sin_port = htons((unsigned short)port); 
21 if (bind(listenfd, (SA *)&serveraddr, sizeof (serveraddr)) < 0) 
22 return -1; 
23 
24 /* Make it a listening socket ready to accept connection redquests */ 
25 if (listen(listenfd, LISTENQ) < 0) 
26 return -1; 
27 return listenfd,; 
28 } 
code/src/csapp.c 


图 11-17 open listenfd : 打开 和 返 回 一 个 监听 套 接 字 的 辅助 函数 


接 下 来 ， 我 们 初始 化 服务 器 的 套 接 字 地 址 结构 ， 为 调用 bind 函数 做 准备 。 在 这 个 例子 中 ， 
我 们 用 INADDR_ANY 通配符 地 址 来 告诉 内 核 这 个 服务 器 将 接受 到 这 人 台 主 机 的 任何 IP 地 址 (第 
19 行 ) 和 到 知名 端口 port (第 20 行 ) 的 请 求 。 注 意 ， 我 们 用 htonl 和 htons 函数 将 卫 地址 
和 端口 号 从 主机 字 节 顺序 转换 为 网 络 字 节 顺 序 。 最 后 ， 我 们 将 listenfd 转换 为 一 个 监听 描述 
符 ( 第 25 行 )， 并 将 它 返 回 给 调用 者 。 

11.4.8 accept 函数 


服务 器 通过 调用 accept 函数 来 等 竺 来 目 客 户 端 的 连接 请 求 : 


#include <sys/socket.h> 


int accept (int listenfd, struct sockaddr *addr, int *addrlen); 


返回 : 车 成 功 则 为 非 负 连接 描述 符 ， 若 出 错 则 为 一 1。 





accept 函数 等 待 来自 客户 端的 连接 请 求 到 达 侦 听 描述 符 1istenfd， 然 后 在 addr 中 填写 
客户 端的 套 接 字 地 址 ， 并 返回 一 个 已 连接 描述 符 〈connected osop lo 这 个 描述 符 可 被 用 来 利 
用 Unix LO 函数 与 客户 端 通信 。 
监听 描述 符 和 已 连接 描述 符 之 间 的 区 别 使 很 多 人 感到 迷惑 。 监 听 描 述 符 是 作为 客户 端 连接 请 
求 的 一 个 端点 。 殿 型 地 ， 它 被 创建 一 次 ， 并 存在 于 服务 器 的 整个 生命 周期 。 已 连接 描述 符 是 客户 
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端 和 服务 器 之 间 已 经 建立 起 来 了 的 连接 的 一 个 端点 。 服务 器 每 次 接受 连接 请 求 时 都 会 创建 一 次 ， 
它 只 存在 于 服务 器 为 一 个 客户 端 服务 的 过 程 中 。 

图 11-18 描绘 了 监听 描述 符 和 已 连接 描述 符 的 角色 。 在 第 一 步 中 ， 服 务 器 调用 accept， 等 
待 连接 请 求 到 达 监 听 描 述 符 ， 具 体 地 我 们 设 定 为 描述 符 3。 回 忆 一 下 ， 描 述 符 0 ~ 2 是 预 留 给 
了 标准 文件 的 。 在 第 二 步 中 ， 客 户 端 调用 connect 函数 ， 发 送 一 个 连接 请 求 到 listenfd.。 
第 三 步 ，accept 函数 打开 了 一 个 新 的 已 连接 描述 符 connfd 我们 假设 是 描述 符 4)， 在 
clientfd 和 connfd 之 间 建 立 连接 并 且 随 后 返回 connfd 给 应 用 程序 。 客 户 端 也 从 
connect 返回 ， 在 这 一 点 以 后 ， 客 户 端 和 服务 器 就 可 以 分 别 通过 读 和 写 clientfd 和 connfq 
来 回 传送 数据 了 。 


为 何 要 有 监听 描述 符 和 已 连接 描述 符 之 间 的 区 别 ? 

你 可 能 很 想 知道 为 什么 套 接 字 接 口 要 区 别 监听 描述 待 和 已 连接 描述 符 。 年 一 看 ， 这 像 是 不 
必要 的 复杂 化 。 然 而 ， 区 分 这 两 者 被 证 明 是 很 有 用 的 ， 因 为 它 使 得 我 们 可 以 建立 并 发 服务 器 ， 
它 能 够 同时 处 理 许多 客户 广 连 接 。 例 如 ， 每 次 一 个 连接 请 求 到 达 监 听 描 述 符 时 ， 我 们 可 以 派生 
(fork) 一 个 新 的 进程 ， 它 通过 i 端 通信 。 在 第 12 章 中 将 介绍 更 多 关于 并 发 服 
务 器 的 内 容 。 


listenfd(3) 
C 1. 服务 器 阻塞 在 accept， 等 待 监 听 
| sr | 服务 咒 描述 符 1istenfd 上 的 连接 请 求 。 
clientfd 


连接 请 求 listenfd(3) 


客户 端 | 1 服务 器 2. 客户 端 通过 调用 和 阻塞 在 connect， 


创建 连接 请 求 。 
clientfd 
listenf ds) 3. 服务 器 从 accept 返回 connfd。 客 户 端 
客户 端 | 从 connect 返回 。 现 在 在 clientfd 和 
connfd 之 间 已 经 建立 起 了 连接 。 
clientfd connfd(4) 


11-18 上 监听 描述 符 和 已 连接 描述 符 的 角色 


11.4.9 echo 客户 端 和 服务 器 的 示例 

学 习 套 接 字 接 口 的 最 好 方法 是 研究 示例 代码 。 图 11-19 展示 了 一 个 echo 客户 端的 代码 。 在 
和 服务 器 建立 连接 之 后 ， 客 户 端 进入 一 个 循环 ， 反 复 从 标准 输入 读 取 文本 行 ， 发 送 文本 行 给 服务 
器 ， 从 服务 器 读 取 回 送 的 行 ， 并 输出 结果 到 标准 输出 。 当 fgets 在 标准 输入 上 遇 到 EOF 时 ,或 
者 因为 用 户 在 键盘 上 键入 ctz1-d， 或 者 因为 在 一 个 重 定 回 的 输入 文件 中 用 尽 了 所 有 的 文本 行 
时 ， 循 环 就 终止 。 

循环 终止 之 后 ， 客 户 端 关 闭 描述 符 。 这 会 导致 发 送 一 个 EOF 通知 到 服务 器 ， 当 服务 器 从 
它 的 a 了 消 数 收 到 一 个 为 零 的 返回 码 时 ， 就 会 检测 到 这 个 结果 。 在 关闭 它 的 描 
述 符 后 ， 客 户 端 就 终止 了 。 既 然 客 户 端 内 核 在 一 个 进程 终止 时 会 自动 关闭 所 有 打开 的 描述 符 ， 
第 24 行 的 close 就 没有 必要 了 。 不 过 ， 显 式 地 关闭 已 经 打开 的 任何 描述 符 是 一 个 良好 的 编程 
习惯 。 
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code/netp/echoclient.c 


#include "csapp.h" 


1 
2 

3 int main(int argc, char **argv) 

4 

和 int clientfd, port; 

6 char *host, buf [MAXLINE]; 

7 rio_t lo 

8 

9 if (argc != 3) { 

10 fprintf(stderr, "usage: %s <host> <port>\n", argv[0]); 
11 exit (0); | 

12 } 

13 host = argv[1] ; 

14 port = atoi(argv[2]); 

15 

16 clientfd = Open_clientfd(host, port); 

17 Rio_readinitb(&rio, clientfd); 

18 

19 While (Fgets(buf, MAXLINE, stdin) != NULL) { 
20 Rio_writen(clientfd, buf, strlen(buf)); 
21 Rio_readlineb(&rio，buf ，MAXLINE) ; 

22 Fputs(buf ，stdout); 

2 

24 Close(clientfd) ; 

pa , exit (0); 

26 3} 


code/netp/echoclient.c 


图 11-19 ”echo 客户 端的 主 程序 


图 11-20 展示 了 echo 服务 器 的 主 程序 。 在 打开 监听 擅 述 符 后 ， 它 进入 一 个 无 限 循环 。 每 次 
循环 都 等 待 一 个 来 自 客户 端的 连接 请 求 ， 输 出 已 连接 客户 端的 域名 和 IP 地址， 并 调用 echo 函 
数 为 这 些 客 户 端 服务 。 在 echo 程序 返回 后 ， 主 程序 关闭 已 连接 描述 符 。 一 旦 客户 端 和 服务 器 关 
闭 了 它们 各 自 的 描述 符 ， 连 接 也 就 终止 了 。 

注意 ， 简 单 的 echo 服务 器 一 次 只 能 处 理 一 个 客户 端 。 这 种 类 型 的 服务 器 一 次 一 个 地 在 客户 
端 间 迭代 ， 称 为 选 代 服 务 器 〈iterative server)。 在 第 12 章 中 ， 我 们 将 学 习 如 何 建立 更 加 复杂 的 并 
发 服务 器 (concurrent server)， 它 能 够 同时 处 理 多 个 客户 端 。 

最 后 ， 图 11-21 展示 了 echo 程序 的 代码 ， 该 程序 反复 读 写 文本 行 ， 直 到 rio_readlineb 
函数 在 第 10 行 遇 到 EOF。 : 


在 连接 中 EOF 意味 着 什么 ? 

EOF 的 概念 常常 使 人 们 感到 迷惑 ， 尤 其 是 在 因特网 连接 的 上 下 文中 。 首 先 ， 我 们 需要 理解 
其 实 并 没有 像 EOF 字符 这 样 的 一 个 东西 。 进 一 步 来 说 ，EOF 是 由 内 核 检测 到 的 一 种 条 件 。 应 
用 程序 在 它 接收 到 一 个 由 read 函数 返回 的 替 返 回 码 时 ， 它 就 会 发 现 EOF 条 件 。 对 于 磁盘 文 
件 ， 当 前 文件 位 置 超 出 文件 长 度 时 ， 会 发 生 EOF。 对 于 因特网 连接 ， 当 一 个 进程 关闭 连接 它 的 
那 一 六 时 ， 会 发 生 EOF。 连 接 另 一 端的 进程 在 试图 读 取 流 中 最 后 一 个 字 节 之 后 的 字 节 时 ， 会 检 
测 到 EOF。 
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code/netp/echoserveri.c 


#include "csapp.hn 


void echo(int connfd) ; 


int main(int argc, char **argv) 


{ 


int listenfd, connfd, port, clientlen,; 

struct sockaddr_in clientaddr; 

struct hostent *hp; 

char *haddrp; 

if (argc != 2) { 
fprintf(stderr, "usage: %hs <port>\n", argv[0]); 
exit (0); 

} 

port = atoi(argv[1]); 


listenfd = Open_listenfd(port); 
while (1) { 
clientlen = sizeof (clientaddr); 
connfd = Accept(listenfd, (SA *)&clientaddr, &clientlen); 


/*¥ Determine the domain name and IP address of the client */ 

hp = Gethostbyaddr((const char *)&clientaddr.sin_addr.s_addr, 
sizeof (clientaddr.sin_addr.s_addr), AF_INET); 

haddrp = inet_ntoa(clientaddr .sin_addr); 

printf ("server connected to %s (%s)\n", hp->h_name, haddrp); 


echo (connfd):; 
Close (connfd); 
} 
exit (0); 


code/netp/echoserveri.c . 


图 11-20 和 迭代 echo 服务 器 的 主 程序 


— code/netp/echo.c 


‘#include "csapp.h" 


void echo(int connfd) 


{ 


size_t n; 
char buf [MAXLINE] ; 
riot rio; 


Rio_readinitb(&rio, connfd); 

while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
printf ("server received bpd bytes\n" ， n); 
Rio_writen(connfd, buf, n); 


| code/netp/echo.c 


图 11-21 读 和 回 送 文本 行 的 echo 函数 
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11.5 Web 服务 器 


迄今 为 止 ， 我 们 已 经 在 一 个 简单 的 echo 服务 器 的 上 下 文中 讨论 了 网 络 编程 。 在 这 一 节 里 ， 
我 们 将 向 你 展示 如 何 利用 网 络 编程 的 基本 概念 ， 来 创建 你 自己 的 虽然 小 但 是 功能 齐全 的 Web 服 
务 器 。 
11.5.1 Web 基础 

Web 客户 端 和 服务 器 之 间 的 交互 用 的 是 一 个 基于 文本 的 应 用 级 协议 ， 叫 做 HITP (Hypertext 
Transfer Protocol， 超 文本 传输 协议 )。HTTP 是 一 个 简单 的 协议 。 一 个 Web 客户 端 〈 即 浏览 器 ) 
打开 一 个 到 服务 器 的 因特网 连接 ， 并 且 请 求 某 些 内 容 。 服 务 器 啊 应 所 请 求 的 内 容 ， 然 后 关闭 连 
接 。 浏 览 器 读 取 这 些 内 容 ， 并 把 它 显 示 在 屏幕 上 。 

Web 服务 和 第 规 的 文件 检索 服务 〈 例 如 FIP) 有 什么 区 别 呢 ? 主要 的 区 别 是 Web 内 容 可 以 
用 一 种 叫做 HTML (Hypertext Markup Language， 超 文本 标记 语言 ) 的 语言 来 编写 。 一 个 HTML 
程序 (页 ) 包含 指令 (标记 )， 它 们 告诉 浏览 器 如 何 显示 这 页 中 的 各 种 文本 和 图 形 对 象 。 例 如 ， 
代码 | 


<b> Make me bold! </b> 


告诉 浏览 器 用 粗 体 字 类 型 输出 <b> 和 </b> 标记 之 间 的 文本 。 然 而 ，HTML 真正 的 强大 之 处 在 
于 一 个 页 面 可 以 包含 指针 ( 超 链接 )， 这 些 指 针 可 以 指向 存放 在 任何 因特网 主机 上 的 内 容 。 例 如 ， 
一 个 格式 如 下 的 HTML 行 


<a href="http://www.cmu.edu/index.html'">Carnegie Mellon</a> 


告诉 浏览 器 高 亮 显 示 文 本 对 象 “Carnegie Mellon”， 并且 创建 一 个 超 链 接 ， 它 指向 存放 在 
CMU Web 服务 器 上 叫做 index .html 的 HTML 文件 。 如 果 用 户 单 击 了 这 个 高 亮 文 本 对 象 ， 浏 
览 器 就 会 从 CMU 服务 器 中 请 求 相 应 的 HTML 文件 并 显示 它 。 


万 维 网 的 起 源 

万 维 网 (World Wide Web) 是 Tim Berners-Lee 创建 的 ， 他 是 一 位 在 瑞典 物理 实验 室 CERN 
(欧洲 粒子 物理 研究 所 ) 工作 的 软件 工程 师 。1989 年 ，Berners-Lee 写 了 一 个 内 部 备忘录 ， 提 出 
了 一 个 分 布 式 超 文本 系统 ， 它 能 连接 “用 链接 组 成 的 笔记 的 网 ”(web of notes with links)。 提 出 
这 个 系统 的 目的 是 帮助 CERN 的 科学 家 共享 和 管理 信息 。 在 接 下 来 的 两 年 多 里 ，Berners-Lee 实 
现 了 第 一 个 Web 服务 器 和 Web 浏览 器 之 后 ， 在 CERN 内 部 以 及 其 他 一 些 网 站 中 ，Web 发 展 出 了 
小 规模 的 拥护 者 。+1993 年 一 个 关键 事件 发 生 了 ，Marc Andreesen (他 后 来 创建 了 Netscape) 和 他 
在 NCSA 的 同事 发 布 了 一 种 图 形 化 的 浏览 器 ， 叫 做 MOSAIC， 可 以 在 三 种 主要 的 平台 上 使 用 : 
Unix、Windows 和 Macintosh。 在 MOSAIC 发 布 后 ， 对 Web 的 兴趣 爆发 了 ，Web 网 站 以 每 年 10 
倍 或 更 高 的 数量 增长 。 到 2009 年 ， 世 界 上 已 经 有 超过 225 000 000 个 Web 网 站 了 ( 源 自 Netcraft 
Web Survey ) 。 


11.5.2 Web 内 容 
对 于 Web 客户 端 和 服务 器 而 言 ， 内 容 是 与 一 个 MIME (Multipurpose Internet Mail Extensions， 
多 用 途 的 网 际 邮 件 扩充 协议 ) 类 型 相关 的 字 节 序列 。 图 11-22 展示 了 一 些 常用 的 MIME 类 型 。 
Web 服务 器 以 两 种 不 同 的 方式 问 客户 端 提供 内 容 : z 
* 取 一 个 磁盘 文件 ， 并 将 它 的 内 容 返 回 给 客户 端 。 磁 盘 文件 称 为 静态 内 容 (static content)， 
. 而 返回 文件 给 客户 端的 过 程 称 为 服务 静态 内 容 (serving static content)。 
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HTML 页 面 
无 格式 文本 
Postscript 文档 

GIF 格式 编码 的 二 进 制图 像 
JPEG 格式 编码 的 二 进 制 图 像 


图 11-22 MIME 类 型 示例 


* 运行 一 个 可 执行 文件 ， 并 将 它 的 输出 返回 给 客户 端 。 运 行 时 可 执行 文件 产生 的 输出 称 为 动 
态 内容 (dynamic content)， 而 运行 程序 并 返回 它 的 输 出 到 客户 端的 过 程 称 为 服务 动态 内 容 
(serving dynamic content)。 
每 条 由 Web 服务 器 返回 的 内 容 都 是 和 它 管 理 的 某 个 文件 相关 联 的 。 这 些 文件 中 的 每 一 个 都 
有 一 个 唯一 的 名 字 ， 则 做 URL (Universal Resource Locator， 通 用 资源 定位 符 )。 例 如 ，URL 


text/html 
text/plain 
application/postscript 






image/gif 
image/jpeg 





http://www.google.com:80/index.html 


表示 因特网 主机 www .google .com 上 一 个 称 为 /index.html 的 HTML 文件 ， 它 是 由 一 个 上 监 
听 端 口 80 的 Web 服务 器 管理 的 。 端 口号 是 可 选 的， 而 知名 的 HITP 默认 的 端口 就 是 80。 可 执 
行文 件 的 URL 可 以 在 文件 名 后 包括 程序 参数 。 “?” 字 符 分 隔 文件 名 和 参数， 而 且 每 个 参数 都 用 
“&” 字 符 分 隔 开 。 例 如 ，URL 


http://bluefish.ics.cs.cmu.edu:8000/cgi-bin/adder?15000&213 


标识 了 一 个 叫做 /cgi-bin/adder 的 可 执行 文件 ， 会 带 两 个 参数 字符 串 15000 和 213 来 调用 
它 。 在 事务 过 程 中 ， 客 户 端 和 服务 器 使 用 的 是 URL 的 不 同 部 分 。 例 如 ， 客 户 端 使 用 前 级 


http://www.google.com:80 


来 决定 与 哪 类 服务 器 联系 ， 服 务 器 在 哪里 ， 以 及 它 监 听 的 端口 号 是 多 少 。 服 务 器 使 用 后 缀 


/index.html 


来 发 现在 它 文件 系统 中 的 文件 ， 并 确定 请 求 的 是 静态 内 容 还 是 动态 内 
关于 服务 器 如 何 解 释 一 个 URL 的 后 级， 以 下 几 点 需要 理解 : : 
“确定 一 个 URL 指向 的 是 静态 内 容 还 是 动态 内 容 没 有 标准 的 规则 。 每 个 服务 器 对 它 所 管理 
的 文件 都 有 自己 的 规则 。 一 种 常见 的 方法 是 ， 确 定 一 组 目录 ， 例 如 cgi-bin， 所 有 的 可 
执行 性 文件 都 必须 存放 这 些 目录 中 。 
“后 缀 中 的 最 开始 的 那个 “/” 不 表示 Unix 的 根 目 录 。 相 反 ， 它 表示 的 是 被 请 求 内 容 类 型 
的 主 目录 。 例 如 ， 可 以 将 一 个 服务 器 配置 成 这 样 : 所 有 的 静态 内 容 存 放 在 目录 /usr/ 
”httpd/html 下 ， 而 所 有 的 动态 内 容 都 存放 在 目录 /usr/httpd/cgi-bin 下。 
“最 小 的 URL 后 级 是“/” 字 符 ， 所 有 服务 器 将 其 扩展 为 某 个 默认 的 主页 ， 例如 /index. 
html。 这 解释 了 为 什么 简单 地 在 浏览 器 中 键 人 一 个 域名 就 可 以 取出 一 个 网 站 的 主页 。 浏 览 
” 咽 在 URL 后 添加 缺失 的 “/”， 并 将 之 传递 给 服务 器 ， 服 务 器 又 把 “/” 扩 展 到 某 个 默认 的 
文件 名 。 
11.5.3 HTTP 事务 
因为 HITP 是 基于 在 因特网 连接 上 传送 的 文本 行 的 ， 我 们 可 以 使 用 Unix 的 TELNET 程序 来 和 
因特网 上 的 任何 Web 服务 器 执行 事务 。 对 于 调试 在 连接 上 通过 文本 行 来 与 客户 端 对 话 的 服务 器 来 
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说 ，TELNET 程序 是 非常 便利 的 。 例 如 ， 图 11-23 使 用 TELNET 向 AOL Web 服务 器 请 求 主 页 。 


unix> telnet www.aol.com 80 Client: open connection to server 
Trying 205.188.146.23... Telnet prints 3 lines to the terminal 
Connected to aol.conm. 
Escape character is '*]'. 
GET / HTIP/1.1 Client: request line 
Host: www.aol.com Client: required HTTP/1.1 header 

Client: empty line terminates headers 
HTTP/1.0 200 OK .Server: response line 
MIME~Version: 1.0 Server: followed by five response headers 
.Date: Mon, 8 Jan 2010 4:59:42 GMT 
Server: Apache-Coyote/1.1 
Content-Type: text/html Server: expect HIML in the response body 
Content-Length: 42092 Server: expect 42,092 bytes in the response body 


Server: empty line terminates response headers 


1 
2 
3 
4 
9 
6 
7 
8 
9 
10 
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<html> Server: first HIML line in response body 


全 


ed Server;: 766 lines of HIML not shown 
</html> Server’; last HINL line in response body 
Connection closed by foreign host. Server: closes connection 


unix> Cliient: clioses connection and terninates 


2 
DD %% YJ 





图 11-23 一 个 服务 静态 内 容 的 HTTP 事务 


在 第 1 行 ， 我们 从 Unix 外 壳 运行 TELNET， 要 求 它 打开 一 个 到 AOL Web 服务 器 的 连接 。 
TELNET 向 终端 打印 三 行 输出 ， 打 开 连 接 ， 然 后 等 待 我 们 输入 文本 第 5 行 )。 每 次 我 们 输入 一 
个 文本 行 ， 并 键入 回 车 键 ，TELNET 会 读 取 该 行 ， 在 后 面 加 上 回 车 和 换行 符号 (在 C 的 表示 中 
为 “rr\n”)， 并 且 将 这 一 行 发 送 到 服务 器 。 这 是 和 HTTP 标准 相符 的 ，HTTP 标准 要 求 每 个 文 
本 行 都 由 一 对 回 车 和 换行 符 来 结束 。 为 了 发 起 事务 ， 我 们 输入 一 个 HITP 请 求 (第 5 ~ 7 行 )。 
服务 器 返回 HTTP 响应 (第 8 ~ 17 行 )， 然 后 关闭 连接 (第 18 行 )。 

1. HTTP 请 求 

一 个 HTTP 请 求 的 组 成 是 这 样 的 : 一 个 请 求 行 (request line) (第 5 行 )， 后 面 跟随 零 个 或 更 
多 个 请 求 报头 〈request header)〈 第 6 行 )， 再 跟随 一 个 空 的 文本 行 来 终止 报头 列表 (第 7 行 )。 
一 个 请 求 行 的 形式 是 


<method> <uri> <version> 


HTTP 支持 许多 不 同 的 方法 包括 GET、POST、OPTIONS、HEAD、PUT、DELETE 和 
TRACE。 我 们 将 只 讨论 广 为 应 用 的 GET 方法 ， 根 据 某 项 调查 研究 ， 它 占 了 99% 的 HITP 请 求 
[107]。GET 方法 指导 服务 器 生成 和 返回 URI (Uniform Resource Identifier， 统 一 资源 标识 符 ) 标 
识 的 内 容 。URI 是 相应 的 URL 的 后 缀 ， 包 括 文件 名 和 可 选 的 参数 。” 

请 求 行 中 的 <version> 字 段 表 明了 该 请 求 遵 循 的 HITP 版 本 。 最 新 的 HITP 版 本 是 
HTTP/1.1[41]。HTTP/1.0 是 从 1996 年 沿用 至 今 的 老 版 本 [6]。HTTP/1.1 定义 了 一 些 附 加 的 报头 ， 
为 诸如 缓冲 和 安全 等 高 级 特性 提供 支持 ， 它 还 支持 一 种 机 制 ， 允 许 客 户 端 和 服务 器 在 同一 条 持久 
连接 (persistent connection) 上 执行 多 个 事务 。 实 际 上 ， 两 个 版 本 是 互相 兼容 的 ， 因 为 HITP/1.0 
的 客户 端 和 服务 器 会 简单 地 忽略 HTTP/1.1 的 报头 。 


© 实际 上 ， 只 有 当 浏 览 器 请 求 内 容 时 ， 这 才 是 真 的 。 如 果 代 理 服 务 器 请 求 内 容 ， 那 么 这 个 URI 必须 是 完整 的 URL。 
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总 的 来 说 ， 第 5 行 的 请 求 行 要 求 服务 器 取出 并 返回 HTML 文件 /index.html。 它 也 告知 
服务 器 请 求 剩 下 的 部 分 是 HITP/1.1 格式 的 。 
” ”请求 报头 为 服务 器 提供 了 额外 的 信息 ， 例 如 浏览 器 的 商标 名 ， 或 者 浏览 器 理解 的 MIME 类 
型 。 请 求 报头 的 格式 为 


<header Dame> : <header data> 


针对 我 们 的 目的 ， 唯 一 需要 关注 的 报头 是 Host 报头 (第 6 行 )， 这 个 报头 在 HTTP/1.1 请 求 中 是 需 
要 的 ， 而 在 HTTP/1.0 请 求 中 是 不 需要 的 。 代 理 组 看 〈proxy cache) 会 使 用 Host 报头 ， 这 个 代理 
缓存 有 时 作为 浏览 器 和 管理 被 请 求 文件 的 原始 服务 器 (origin server) 的 中 介 。 客 户 端 和 原始 服务 
器 之 间 ， 可 以 有 多 个 代理 ， 即 所 谓 的 代理 链 (proxy chain)。Host 报头 中 的 数据 指示 了 原始 服务 器 
的 域名 ， 使 得 代理 链 中 的 代理 能 够 判断 它 是 否 可 以 在 本 地 缓存 中 拥有 一 个 被 请 求 内 容 的 副本 。 

继续 图 11-23 中 的 示例 ， 第 7 行 的 空 文本 行 (通过 在 键盘 上 键入 回 车 键 生成 的 ) 终止 了 报 
头 ， 并 指示 服务 器 发 送 馈 请求 的 HTML 文件 。 

2. HTTP 响应 

HTTP 响应 和 HTTP 请 求 是 相似 的 。 一 个 HTTP 响应 的 组 成 是 这 样 的 : 一 个 响应 行 
(response line) (第 8 行 ) 后 面 跟随 着 零 个 或 更 多 的 响应 报头 (response header) (第 9 一 13 行 )， 
再 跟随 一 个 终止 报头 的 空 行 (第 14 行 )， 再 跟随 一 个 响应 主体 〈response body) (第 15 一 17 行 )。 
一 个 响应 行 的 格式 是 


<version> <status code> <status message> 


版 本 字段 描述 的 是 响应 所 遵循 的 HTTP 版 本 。 状 态 码 (status code) 是 一 个 三 位 的 正 整 数 ， 
指明 对 请 求 的 处 理 。 状 态 消息 (status message) 给 出 与 错误 代码 等 价 的 英文 描述 。 图 11-24 列 出 
了 一 些 常 见 的 状态 码 ， 以 及 它们 相应 的 消息 。 第 9 一 13 行 的 响应 报头 提供 了 关于 响应 的 附加 信 
息 。 针 对 我 们 的 目的 ， 两 个 最 重要 的 报头 是 Content-Type (第 12 行 )， 它 告诉 客户 端 啊 应 主 
体 中 内 容 的 MIME 类 型 ; 以 及 content-Length (第 13 行 )， 用 来 指示 响应 主体 的 字 节 大 小 。 

第 14 行 的 终止 响应 报头 的 空 文本 行 ， 其 后 跟随 着 响应 主体 ， 响 应 主体 中 包含 着 被 请 求 的 内 容 。 


状态 代码 ”状态 消息 


成 功 























处 理 请 求 无 误 i 
内 容 已 移动 到 位 置 头 中 指明 的 主机 上 







永久 移动 

错误 请 求 服务 器 不 能 理解 请 求 

禁止 服务 器 无 权 访问 所 请 求 的 文件 

未 发 现 服务 器 不 能 找到 所 请 求 的 文件 
”未 实现 服务 器 不 支持 请 求 的 方法 





HTTP 版 本 不 支持 服务 器 不 支持 请 求 的 版 本 
图 11-24 一些 HITP 状态 码 


11.5.4 ”服务 动态 内 容 

如 果 我 们 停 下 来 考虑 一 下 ， 一 个 服务 器 是 如 何 向 客户 端 提供 动态 内 容 的 ， 就 会 发 现 一 些 问题 。 
例如 ， 客 户 端 如 何 将 程序 参数 传递 给 服务 器 ? 服务 器 如 何 将 这 些 参数 传递 给 它 所 创建 的 子 进程 ? 
服务 器 如 何 将 子 进程 生成 内 容 所 需要 的 其 他 信息 传递 给 子 进程 ? 子 进 程 将 它 的 输出 发 送 到 哪里 ? 
一 个 称 为 CGI (Common Gateway Interface， 通 用 网 关 接 口 ) 的 实际 标准 的 出 现 解决 了 这 些 问题 。 

1. 客户 端 如 何 将 程序 参数 传递 给 服务 器 

GET 请 求 的 参数 在 URI 中 传递 。 正 如 我 们 看 到 的 ， 一 个 “?” 字符 分 隔 了 文件 名 和 人 参数， 而 
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每 个 参数 都 用 一 个 “&” 字 符 分 阳 开 。 参 数 中 不 允许 有 拼 格 ， 而 必须 用 字符 虽 “%20” 来 表示 。 
对 其 他 特殊 字符 ， 也 存在 着 相似 的 编码 。 


在 HTTP POST 请 求 中 传递 参数 
HTTP POST 请 求 的 参数 是 在 请 求 主体 中 而 不 是 URI 中 传递 的 。 


2. 服务 器 如 何 将 参数 传递 给 子 进程 
在 服务 器 接收 一 个 如 下 的 请 求 后 


GET /cgi-bin/adder?15000&213 HTTP/1.1 


它 调用 fork 来 创建 一 个 子 进 程 ， 并 调用 execve 在 子 进程 的 上 下 文中 执行 /cgi-bin/adder 
程序 。 像 adder 这 样 的 程序 ， 常 常 称 为 CGI 程序 ， 因 为 它们 遵守 CGI 标准 的 规则 。 而 且 ， 因 为 
许多 CGI 程序 是 用 Perl 脚本 编写 的 ， 所 以 CGI 程序 也 常 称 为 CGI 脚本 。 在 调用 execve 之 前 ， 
子 进 程 将 CGI 环境 变量 QUERY STRING 设置 为 “15000&213” adder 程序 在 运行 时 可 以 用 
Unix getenv 轩 数 来 引用 它 。 

3. 服务 器 如 何 将 其 他 信息 传递 给 子 进程 

CGI 定义 了 大 量 的 其 他 环境 变量 ， 一 个 CGI 程序 在 它 运行 时 可 以 设置 这 些 环境 变量 。 图 
.11-25 给 出 了 其 中 的 一 部 分 。 


QUERY _ STRING 程序 参数 
SERVER PORT 父 进程 侦 听 的 端口 
REQUEST METHOD GET 或 POST 


REMOTE HOST 客户 端的 域名 

REMOTE ADDR 客户 端的 点 为 十 进 制 PP 地 址 

CONTENT _ TYPE 只 对 POST 而 言 : 请 求 体 的 MIME 类 型 
CONTENT LENGTH 只 对 POST 而 言 : 请 求 体 的 字 节 大 小 





图 11-25 CGI 环境 变量 示例 


4. 子 进程 将 它 的 输出 发 送 到 哪里 一 : 

一 个 CGI 程序 将 它 的 动态 内 容 发 送 到 标准 输出 。 在 子 进程 加 载 并 运行 CGI 程序 之 前 ， 它 使 
用 Unix dup2 函数 将 标准 输出 重 定 回 到 和 客户 端 相 关联 的 已 连接 描述 符 。 因 此 ， 任 何 CGI 程序 
写 到 标准 输出 的 东西 都 会 直接 到 达 客 户 端 。 

注意 ， 因 为 父 进程 不 知道 子 进 程 生成 的 内 容 的 类 型 或 大 小 ， 所 以 子 进程 就 要 负责 生成 
Content-type 和 Content-length 啊 应 报头 ， 以 及 终止 报头 的 空 行 。 

图 11-26 展示 了 一 个 简单 的 CGI 程序 ， 它 对 两 个 参数 求 ， 并 返回 带 结果 的 HTML 文件 给 

客户 端 。 图 11-27 展示 了 一 个 HTTP 事务 ， 它 根据 adder 程序 提供 动态 内 容 。 


将 HTTP POST 请 求 中 的 参数 传递 给 CGI 程序 
对 于 POST 请 求 ， 子 进程 也 需要 重 定向 标准 输入 到 已 连接 撕 述 符 。 然 后 ，CGI 程序 会 从 标准 
输入 中 读 取 请 求 主体 中 的 参数 。 


练习 题 11.5 ”在 10.9 节 中 ， 我 们 警告 过 你 关于 在 网 络 应 用 中 使 用 C 标准 1/O 函数 的 危险 。 然 而 ， 图 
11-26 中 的 CGI 程序 却 能 没有 任何 问题 地 使 用 标准 IO。 为 什么 呢 ? 
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code/netp/tiny/cgi-bin/adder.c 
#include "csapp.h" -ss 


int main(void) { 
char *buf, *p; 
char argl [MAXLINE], arg2[MAXLINE], content [MAXLINE] ; 
int ni=0, n2=0; 


/* Extract the two arguments */ 
if ((buf = getenv("QUERY_STRING")) != NULL) 
P = strchr(buf, '&'); 
*p = '\0'，; 
strcpy(argli, buf); 
strcpy(arg2, p+1); 
nl = atoi(argl) ; 
n2 = atoi(arg2); 


} 


/* Make the response body */ 
sprintf (content, 'Welcome to add.com: '"); 
sprintf(content, "%sTHE Internet addition portal.\r\n<p>", content); 
sprintf (content, "%sThe answer is: %d + %d = %d\r\n<p>", 
content, ni, n2, ni + n2); 
sprintf (content, "psThanks for visiting!\r\n", content); 


/* Generate the HTTP response */ 
printf("Content-length: %d\r\n", (int)strlen(content)); 
printf ("Content-type: text/html\r\n\r\n'); 
printf("%s", content); 
fflush(stdout) ; 
exit (0); 

} 


code/netp/tiny/cgi-bin/adder.c 
图 11-26 对 两 个 整数 求 和 的 CGI 程序 


unix> telnet kittyhawk.cmcl.cs.cmu.edu 8000 Client: open connection 


Trying 128.2.194.242.. 


Connected to kittyhawk.cmcl.cs.cmu.edu. 
Escape character is '~]'. 
GET /cgi-bin/adder?15000&213 HTTP/1.0 Cliient: regquest line 
Client: enmpty 1ine terminates headers 
HTTP/1.0 200 OK Server: response 1ine 
Server: Tiny Web Server Server: identify server 
Content-length: 115 Adder: expect 115 bytes in responseé body 
Content-type: text/html hdder: expect HTML in response body 
Adder: empty line terminates headers 
Welcome to add.com: THE Internet addition portal. 4dder: first HIML line 
<p>The answer is: 15000 + 213 = 15213 Adder: second HINML 1ine in response body 
<p>Thanks for visiting! Adder: third HTML, line in response body 
Connection closed by foreign host. Server: closes connection 
unix> Glient: cioses connection and teriminates 


图 11-27 一 个 提供 动态 HTML 内 容 的 HTTP 事务 
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11.6 综合 : TINY Web 服务 器 


我 们 通过 开发 一 个 虽然 小 但 是 功能 齐全 的 称 为 TINY 的 Web 服务 器 来 结束 我 们 对 网 络 编程 
的 讨论 。TINY 是 一 个 有 趣 的 程序 。 在 短 短 250 行 代码 中 ， 它 结合 了 许多 我 们 已 经 学 习 到 的 思想 ， 
例如 进程 控制 、Unix VO、 套 接 字 接口 和 HTTP。 虽 然 它 缺 乏 一 个 实际 服务 器 所 具备 的 功能 性 、 
健壮 性 和 安全 性 ， 但 是 它 足够 用 来 为 实际 的 Web 浏览 器 提供 静态 和 动态 的 内 容 。 我 们 鼓励 你 研 
究 它 ， 并 且 自 己 实现 它 。 将 一 个 实际 的 浏览 器 指向 你 自己 的 服务 器 ， 看 着 它 显示 一 个 复杂 的 带 有 
文本 和 图 片 的 Web 页 面 ， 真 是 非常 令 人 兴 耕 〈 甚 至 对 我 们 这 些 作者 来 说 ， 也 是 如 此 )。 

1.TINY 的 main 程序 

图 11-28 展示 了 TINY 的 主 程序 。TINY 是 一 个 迭代 服务 器 ， 监 听 在 命令 行 中 传递 来 的 端口 
上 的 连接 请 求 。 在 通过 调用 open_1istenfd 函数 打开 一 个 监听 套 接 字 以 后 ，TIHNY 执行 典型 的 
无 限 服务 器 循环 ， 不 断 地 接受 连接 请 求 (第 31 行 )， 执 行事 务 (第 32 行 )， 并 关闭 连接 它 的 那 一 
端 (第 33 行 )。 


code/netp/tiny/tiny.c 
1 /* 
2 * tiny.c - A simple, iterative HTTP/i1.0 Web server that uses the 
3 水 GET method to serve static and dynanmic content. 
4 *f 
5 #include "csapp.h" 


7 void doit(int fd); 

8 void read_requesthdrs (rio._t *rp); 

9 int parse_uri(char *uri, char *filename, char *cgiargs); 
10 void serve_static(int fd, char *filename, int filesize) ; 
11 void get_filetype(char *filename, char *filetype); 

12 ”void serve_dynamic(int fd, char *filename, char *cgiargs); 
13 void clienterror(int fd, char *cause, char *errnum, 

14 char *shortmsg, char *]longmsg); 


i6 int main(int argc, char **argv) 


17  { 

18 int listenfd, connfd, port, clientlen; 

19 struct sockaddr_in clientaddr; 

20 

21 /* Check command line args */ 

22 if (argc != 2) { 

23 fprintf(stderr, "usage: %s <port>\n", argv[0]); 
24 exit(1); 

25 } 8 

26 port = atoi(Cargv[1] ) ; 

27 

28 listenfd = Open_listenfd(port); 

29 while (1) { 

30° clientlen = sizeof (clientaddr); 

31 : connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
32 doit (connfd). 

33 Close(connfd) ; 

34 } 

35 


code/mnetp/tiny/tiny.c 
图 11-28 TINY Web 服务 器 


640 莫 三 部 分 程序 间 朱 交互 和 和 通信 


2. doit 项 数 
图 11-29 中 的 doit 函数 处 理 一 个 HITP 事务 。 首 先 ， 我 们 读 和 解析 请 求 行 (第 11 ~ 12 
行 )。 注 意 ， 我 们 使 用 图 11-7 中 的 rio_readlinepb 函数 读 取 请 求 行 。 
INY 只 支持 GET 方法 。 如 果 客 户 端 请 求 其 他 方法 〈 比 如 POST)， 我 们 发 送 给 它 一 个 错误 
信息 ， 并 返回 到 主 程序 (第 13 ~ 17 行 )， 主 程序 随后 关闭 连接 并 等 待 下 一 个 连接 请 求 。 和 否则 ， 
我 们 读 并 且 〈 像 我 们 将 要 看 到 的 那样 ) 忽略 任何 请 求 报头 〈 第 18 行 )。 


code/netp/tiny/tiny.c 
1 void doit(int fd) 
2、 :站 
3 int is_static; 
4 struct stat sbuf; 
5 char buf [MAXLINE], method [MAXLINE], uri [MAXLINE], version [MAXLINE]; 
6 char filename [MAXLINE], cgiargs [MAXLINE]; 
7 rio_t rio; 
8 
9 /+ Read request line and headers */ 
10 Rio_readinitb(&rio, fd); 
11 Rio_readlineb(&rio, buf, MAXLINE); 
12 sscanf (buf , "%s %s %s", method, uri, version); 
13 if (strcasecmp(method, "GET")) 二 
14 clienterror(fd, method, "501", "Not Implemented", 
15 "Tiny does not implement this method"); 
16 return,; 
17 } 
18 read_requesthdrs (&rio); 
19 
20 /* Parse URI from GET request */ 
21 is_static = parse_uri(uri, filename, cgiargs); 
22 if (stat (filename，&sbuf) < 0) { 
23 clienterror(fd, filename, "404", "Not found' ， 
24 "Tiny couldn't find this file") ; 
25 return,; 
26 } 
27 
28 if (is_static) { /* Serve static content */ 
29 if (!(S_ISREG(sbuf.st_mode)) || !(S_IRUSR & sbuf.st_mode)) + 
30 clienterror(fd, filename, "403", "Forbidden", 
31 "Tiny couldn't read the file'); 
32 return;: 
33 } 
34 serve_static(fd, filename, sbuf.st_size); 
35 } 
36 else { /* Serve dynamic content */ 
3 if (!(S_ISREG(sbuf.st_mode)) || !(S_IXUSR & sbuf .st_mode)) { 
38 clienterror(fd, filename, '"'403", "Forbidden'", 
39 "Tiny couldn't run the CGI program'"); 
40 return; 
41 } 
42 serve_dynamic(fd, filename, cgiargs); 
43 } 
44 } 
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图 11-29 TINY doit : 处 理 一 个 HTTP 事务 
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然后 ， 我 们 将 URI 解析 为 一 个 文件 名 和 一 个 可 能 为 空 的 CGI 参数 字符 串 一 并 且 我 们 设置 一 
个 标志 ， 表 明 请 求 的 是 静态 内 容 还 是 动态 内 容 (第 21 行 )。 如 果 文 件 在 磁盘 上 不 存在 ， 我 们 立即 
发 送 一 个 错误 信息 给 客户 端 并 返回 。 

最 后 ， 如 果 请 求 的 是 静态 内 容 ， 我 们 就 验证 该 文件 是 一 个 普通 文件 ， 而 我 们 是 有 读 权 限 的 
(第 29 行 )， 如 果 是 这 样 ， 我 们 就 向 客户 端 提 供 静 态 内 容 (第 34 行 )。 相 似 地 ， 如 果 请 求 的 是 动 
态 内 容 ， 我 们 就 验证 该 文件 是 可 执行 文件 (第 37 行 )， 如 果 是 这 样 ， 我 们 就 继续 ， 并 且 提 供 动态 
内 容 〈 第 42 行 )。 

3. clienterror 函数 

TINY 缺乏 一 个 实际 服务 器 的 许多 错误 处 理 特性 。 然 而 ， 它 会 检查 一 些 明 显 的 错误 ， 并 把 它 
们 报告 给 客户 端 。 图 11-30 中 的 clienterror 函数 发 送 一 个 HTTP 响应 到 客户 端 ， 在 响应 行 中 
包含 相应 的 状态 码 和 状态 消息 ， 响 应 主体 中 包含 一 个 HTML 文件 ， 向 浏览 器 的 用 户 解 释 这 个 错 
误 。 回想 一 下 ，HTML 啊 应 应 该 指明 主体 中 内 容 的 大 小 和 类 型 。 因 此 ， 我 们 选择 创建 HIML 内 
容 为 一 个 字符 串 ， 这 样 一 来 我 们 可 以 简单 地 确定 它 的 大 小 。 还 有 有， 请 注意 我 们 为 所 有 的 输出 使 用 
的 都 是 图 10-3 中 的 健壮 的 rio writen 函数 。 i - i 


~ Code/metp/tin ytin y.c 


void clienterror(int fd, char *Cause, char xerrnum, 
char *shortmsg, char *longmsg) 


| 

2 

于 下 省 

4 char buf [MAXLINE], body [MAXBUF] ; 

本 

6 /* Build the HTTP response body */ 

7 sprintf (body, "<html><title>Tiny Error</title>"); | 

8 sprintf (body, "%s<body bgcolor=""ffffff"">\r\n", body); 
9 sprintf(body, "%s%hs: %s\r\n", body, errnum, shortmsg); 


10 sprintf(body, "%s<p>%s: %s\r\n", body, longmsg, cause); 
11 sprintf (body, "%s<hr><em>The Tiny Web server</em>\r\n", body); 


13 /* Print the HTTP response */ 


14 sprintf (buf , "HTTP/1.0 %s %s\r\n", errnum, shortmsg) ; 
15 Rio_writen(fd, buf, strlen (buf)); 
16 sprintf (buf, "Content-type: text/html\r\n'); 
17 Rio_writen(fd, buf, strlen(buf)); | 
18 sprintf (buf, "Content-length: %d\r\n\r\n", (int)strlen(body)); 
19 Rio_writen(fd, buf, strlen(buf)); 
20 Rio_writen(fd, body, strlen(body)); 
21 3 
code/netp/tiny/tiny.c 


图 11-30 TINY clienterror : 向 客户 端 发 送 一 个 出 错 消 息 


4. read requesthdrs 函数 

TINY 不 使 用 请 求 报头 中 的 任何 信息 。 它 仅仅 调用 图 11-31 中 的 read_requesthdrs 函数 
来 读 取 并 忽略 这 些 报 头 。 注 意 ， 终 止 请 求 报头 的 空 文本 行 是 由 回 车 和 换行 符 对 组 成 的 ， 我 们 在 第 
6 行 中 检查 它 。 

5. parse_uri 函数 

TINY 假设 静态 内 容 的 主 目录 就 是 它 的 当前 目录 ， 而 可 执行 文件 的 主 目录 是 . /cgi-bin。 
任何 包含 字符 串 cgi-bin 的 URI 都 会 被 认为 表示 的 是 对 动态 内 容 的 请 求 。 默 认 的 文件 名 是 


./ home .html。 


www.lopSage.com 
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code/netp/tiny/tiny.c 
1 void read_requesthdrs (Tio_t *rp) 
2 苹 
3 char buf [MAXLINE]; 
4 
5 Rio_readlineb(rp, buf, MAXLINE); 
6 while(strcmp(buf, "\r\n")) { 
7 Rio_readlineb(rp, buf, MAXLINE); 
8 printf("%s", buf); 
9 } 
10 return; 
iF 汪 
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图 11-31 TINY read requesthdrs : 读 取 并 忽略 请 求 报头 


图 11-32 中 的 parse_uri 函数 实现 了 这 些 策略 。 它 将 URI 解析 为 一 个 文件 名 和 一 个 可 选 
的 CGI 参数 字符 串 。 如 果 请 求 的 是 静态 内 容 (第 5 行 )， 我 们 将 清除 CGI 参数 串 〈 第 6 行 )， 然 
后 将 URI 转换 为 一 个 相对 的 Unix 路 径 名 ， 例 如 ./index.html (第 7 一 8 行 )。 如 果 URI 是 用 
“/” 结 尾 的 〈 第 9 行 )， 我 们 将 把 默认 的 文件 名 加 在 后 面 〈 第 10 行 )。 另 一 方面 ， 如 果 请 求 的 是 
动态 内 容 (第 13 行 )， 我 们 就 会 抽取 出 所 有 的 CGI 参数 (第 14 一 20 行 )， 并 将 URI 剩 下 的 部 分 
转换 为 一 个 相对 的 Unix 文件 名 (第 21 ~ 22 行 )。 


code/netp/tiny/tiny.c 


1 int parse_uri(char *uri, char *filename, char *cgiargs) 
2 

3 char *ptr; 

5 if (lstrstr(uri, "cgi-bin")) { /* Static content */ 
6 strcpy (cgiargs, ""); 

strcpy (filename, "."); 

8 strcat (filjename, uri); 

9 if (uri[strlen(uri)-1] == '/') 

10 strcat (filename, "home.html'"); 
11 return 1,; 

12 } 

13 else { /* Dynamic content */ 

14 ptr = index(uri, '?'); 

15 if (ptr) { 

16 strcpy (cgiargs, ptr+1); 

17 *ptr = '\0'; 

18 } 

19 else 

20 ~ strcpy(cgiargs, ""); 

21 strcpy (filename, "."); 

22 strcat (filename, uri); 

23 return 0; 

24 

25 3 
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图 11-32 TINY parse_ uri: 解析 一 个 HTTP URI 
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6. serve static 函数 ; 

TINY 提供 四 种 不 同类 型 的 静态 内 容 : HTML 文件 、 无 格式 的 文本 文件 ， 以 及 编码 为 GIF 和 
JPEG 格式 的 图 片 。 这 些 文件 类 型 占据 Web 上 提供 的 绝 大 部 分 静态 内 容 。 

图 11-33 中 的 serve static 图 数 发 送 一 个 HITP 响应 ， 其 主体 包含 一 个 本 地 文件 的 内 容 。 
首先 ， 我 们 通过 检查 文件 名 的 后 缀 来 判断 文件 类 型 (第 7 行 )， 并 且 发 送 响 应 行 和 响应 报头 给 客 
户 端 (第 8 ~ 12 行 )。 注 意 用 一 个 空 行 终止 报头 。 


人 


code/metp/tiny/tiny.c 


void serve_static(int fd, char *filename, int filesize) 


{ 


/* 


* get_filetype - derive file type from file name 


int srcfd; 
char *srcp, filetype [MAXLINE], buf [MAXBUF] ; 


/* Send response headers to cilient */ 
get_filetype(filename, filetype); 

sprintf (buf , "HTTP/1.0 200 OK\r\n'"); 

sprintf (buf, "%sServer: Tiny Web Server\r\n'", buf); 
sprintf (buf, "hsContent-length: %d\r\n", buf, filesize); 
sprintf (buf, "%sContent-type: %s\r\n\r\n", buf, filjetype); 
Rio_writen(fd, buf, strlen(buf)).; 


/* Send response body to client */ 

srcfd = Open(filename, 0_RDONLY, 0); 

srcp = Mmap(0, filesize, PROT_READ, MAP_PRIVATE, srcfd, 0); 
Close(srcfd) ; 

Rio_writen(fd, srcp, filesize); 

Munmap(srcp, filesize); 


void get_filetype(char *filename, char *filetype) 


{ 


if (strstr(filename, ".htm]l')) 
strcpy (filetype, "text/html'"); 
else if (strstr(filename, ".gif")) 
strcpy(filetype, "image/gif"); 
else if (strstr(filename, ".jpg'")) 
strcpy(filetype, "image/jpeg'"); 
else 
strcpy(filetype, "text/plain"); 


、 code/netp/tiny/tiny.c 
图 11-33 TINY serve_static ; 为 客户 端 提供 静态 内 容 


接着 ,我们 将 锌 请 求 文件 的 内 容 拷贝 到 已 连接 描述 符 fd 来 发 送 响 应 主体 。 这 里 的 代码 是 比 
较 微妙 的 ， 需 要 仔细 研究 。 第 15 行 以 读 方 式 打 开 filename， 并 获得 它 的 描述 符 。 在 第 16 行 ， 
Unix mmap 图 数 将 锌 请 求 文件 映射 到 一 个 虚拟 存储 器 空间 。 回 想 我 们 在 第 9.8 节 中 对 mmap 的 
讨论 ， 调 用 mmap 将 文件 srcfd 的 前 filesize 个 字 节 映射 到 一 个 从 地 址 srcp 开始 的 私有 只 读 
虚拟 存储 器 区 域 。 
一 旦 将 文件 映射 到 存储 器 ， 我 们 就 不 再 需要 它 的 描述 符 了 ， 所 以 我 们 关闭 这 个 文件 (第 17 
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行 )。 执 行 这 项 任务 失败 将 导致 一 种 潜在 的 致命 的 存储 器 泄漏 。 第 18 行 执行 的 是 到 客户 端的 实际 
文件 传送 。rio_writen 函数 据 贝 从 srcp 位 置 开 始 的 filesize 个 字 节 (它们 当然 已 经 被 映射 
到 了 所 请 求 的 文件 ) 到 客户 端的 已 连接 描述 符 。 最 后 ， 第 19 行 释 放 了 映射 的 虚拟 存储 器 区 域 。 
和 

7. serve dynamic 函数 

TINY 通过 派生 一 个 子 进程 并 在 子 进程 的 上 下 文中 运行 一 个 CGI 程序 ， 来 提供 各 种 类 型 的 动 
态 内 容 。 

图 11-34 中 的 serve_dynamic 函数 一 开始 就 向 客户 端 发 送 一 个 表明 成 功 的 响应 行 ， 同 时 
还 包括 带 有 信息 的 Server 报头 。CGI 程序 负责 发 送 响 应 的 剩余 部 分 。 注 意 ， 这 并 不 像 我 们 可 
能 希望 的 那样 健壮 ， 因 为 它 没有 考虑 到 CGI 程序 会 遇 到 某 些 错误 的 可 能 性 。 


code/netp/tiny/tiny.c 
| void serve_dynamic(int fd, char *filename, char *cgiargs) 
,1 | 
3 char buf [MAXLINE], *emptylist[] = { NULL }:; 
4 
5 /* Return first part of HTTP response */ 
6 sprintf (buf , "HTTP/1.0 200 OK\r\n"); 
7 Rio_writen(fd, buf, strlen(buf)); 
8 sprintf (buf, "Server: Tiny Web Server\r\n'); 
9 Rio_writen(fd, buf, strlen(buf)); 


1 if (Fork() == 0) 攻 /# child */ : 


12 /* Real server would set all CGI vars here 人 

13 setenv ("QUERY_STRING", cgiargs, 1); 

14 Dup2 (fd, STDOUT_FILENO) ; /* Redirect stdout to client */ 
15 Execve (filename, emptylist, environ); /* Run CGI program */ 

16 

17 Wait (NULL); /* Parent waits for and reaps child */ 

18 
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图 11-34 TINY serve dynamic: 关 客 户 端 提供 动态 内 容 


在 发 送 了 响应 的 第 一 部 分 后 ， 会 派生 一 个 新 的 子 进程 〈 第 11 行 )。 子 进程 用 来 自 请 求 URI 
的 CGI 参数 初始 化 QUERY _STRING 环境 变量 (第 13 行 )。 注 意 ， 一 个 真正 的 服务 器 还 会 在 此 
处 设置 其 他 的 CGI 环境 变量 。 为 了 简短 ， 我 们 省 略 了 这 一 步 。 还 有 ， 我 们 注意 到 Solaris SR 
用 的 是 putenv 函数 ， 而 不 是 setenv 函数 。 

接 下 来 ， 子 进程 重 定向 它 的 标准 输出 到 已 连接 文件 描述 符 《〈 第 14 行 )， 然 后 加 载 并 运行 CGI 
程序 (第 15 行 )。 因 为 CGI 程序 运行 在 子 进 程 的 上 下 文中 ， 它 能 够 访问 所 有 在 调用 execve 天 
数 之 前 就 存在 的 打开 文件 和 环境 变量 。 因 此 ，CGI 程序 写 到 标准 输出 上 的 任何 东西 都 将 直接 送 到 
客户 端 进程 ， 不 会 受到 任何 来 自 父 进程 的 干涉 。 

”其 间 ， 父 进程 阻塞 在 对 wait 的 调用 中 ， 等 待 当 子 进程 终止 的 时 候 ， 回 收 操作 系统 分 配给 子 
进程 的 资源 (第 17 行 )。 

”处 理 过 早 关闭 的 连接 | 

尽管 一 个 Web 服务 器 的 基本 功能 非常 简单 ， 但 是 我 们 不 想 给 你 一 个 假象 ， 以 为 编写 一 个 实 
际 的 Web 服务 器 是 非常 简单 的 。 构 造 一 个 长 时 间 运 行 而 不 前 渍 的 健壮 的 Web 服务 器 是 一 个 困难 
的 任务 ， 比 起 在 这 里 我 们 已 经 学 习 了 的 内 容 ， 它 要 求 对 Unix 系统 编程 有 更 加 深入 的 理解 。 例 如 ， 
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如 果 一 个 服务 器 写 一 个 已 经 被 客户 丹 关 闭 了 的 连接 (比如 ， 因 为 你 在 浏览 器 上 单 击 了 “Stop” 
按钮 )， 那 么 第 一 次 这 样 的 写 会 正常 返回 ， 但 是 第 二 次 写 就 会 引起 发 送 SIGPIPE 信号 ， 这 个 信 
号 的 默认 行为 就 是 终止 这 个 进程 。 如 果 捕 获 或 者 忽略 SIGPIPE 人 信号， 那么 第 二 次 写 操 作 会 返 
回 值 一 1， 并 将 errno 设置 为 EPIPE。strerr 和 perror 函数 将 EPIPE 错误 报告 为 “Broken 
pipe”， 这 是 一 个 迷惑 了 很 多 人 的 不 太 直 观 的 信息 。 总 的 来 说 ， 一 个 健壮 的 服务 器 必须 捕获 这 些 
SIGPIPE 信号 ， 并 且 检 查 write 函数 调用 是 否 有 EPIPE 错误 。 


11.7 “小 结 


每 个 网 络 应 用 都 是 基于 客户 端 一 服务 器 模型 的 。 根 据 这 个 模型 ， 一 个 应 用 是 由 一 个 服务 器 
和 一 个 或 多 个 客户 端 组 成 的 。 服 务 器 管理 资源 ， 以 某 种 方式 操作 资源 ， 为 它 的 客户 端 提供 服务 。 
客户 端 一 服务 器 模型 中 的 基本 操作 是 客户 端 一 服务 器 事务 ， 它 是 由 客户 端 请 求 和 跟随 其 后 的 服 
务 器 啊 应 组 成 的 。 

客户 端 和 服务 器 通过 因特网 这 个 全 球 网 络 来 通信 。 从 一 个 程序 员 的 观点 来 看 ， 我 们 可 以 把 因 
特 网 看 成 是 一 个 全 球 范围 的 主机 集合 ， 具 有 以 下 几 个 属性 : 1) 每 个 因特网 主机 都 有 一 个 唯一 的 
32 位 名 字 ， 称 为 它 的 他 地址 。2) IP 地 址 的 集合 被 映射 为 一 个 因特网 域名 的 集合 。3) 不 同 因 特 
网 主机 上 的 进程 能 够 通过 连接 互相 通信 。 

客户 端 和 服务 器 通过 使 用 套 接 字 接 口 建 立 连 接 。 一 个 套 接 字 是 连接 的 一 个 端点 ， 连 接 是 以 文 
件 描述 符 的 形式 提供 给 应 用 程序 的 。 套 接 字 接 口 提供 了 打开 和 关闭 套 接 字 描述 符 的 函数 。 客 户 端 
和 服务 器 通过 读 写 这 些 描述 符 来 实现 彼此 间 的 通信 。 \ 

Web 服务 器 使 用 HTTP 协议 和 它们 的 客户 端 〈 例 如 浏览 器 ) 彼此 通信 。 浏 览 器 向 服务 器 请 
求 静 态 或 者 动态 的 内 容 。 对 静态 内 容 的 请 求 是 通过 从 服务 器 磁盘 取得 文件 并 把 它 返回 给 客户 端 
来 服务 的 。 对 动态 内 容 的 请 求 是 通过 在 服务 器 上 一 个 子 进程 的 上 下 文中 运行 一 个 程序 并 将 它 的 
输出 返回 给 客户 端 来 服务 的 。CGI 标准 提供 了 一 组 规则 ， 来 管理 客户 端 如 何 将 程序 参数 传递 给 
服务 器 ， 服 务 器 如 何 将 这 些 参数 以 及 其 他 信息 传递 给 子 进 程 ， 以 及 子 进程 如 何 将 它 的 输出 发 送 
回 客户 端 。 

只 用 几 百 行 C 代码 就 能 实现 一 个 简单 但 是 有 功效 的 Web 服务 器 ， 它 既 可 以 提供 静态 内 容 ， 
也 可 以 提供 动态 内 容 。 


参考 文献 说 明 

有 关 因 特 网 的 官方 信息 源 被 保存 在 一 系列 的 可 免费 获取 的 带 编 号 的 文档 中 ， 这 个 文档 称 为 
RFC (Requests For Comments， 请 求 注解 ，Internet 标准 〈 草 案 ))。 在 以 下 网 站 可 获得 可 搜索 的 
RFC 的 索引 


http://rfc-editor.org 


RFC 通 沼 是 为 因特网 基础 设施 的 开发 者 编写 的 ， 因 此 ， 对 于 普通 读者 来 说 ， 往 往 过 于 详细 
了 。 然 而 ， 作 为 权威 信息 ， 没 有 比 它 更 好 的 信息 来 源 了 。HTTP/1.1 协议 记录 在 RFC 2616 中 。 
MIME 类 型 的 权威 列表 保存 在 z 


http://www.iana.org/assignments/media-types 


关于 计算 机 网 络 互联 有 大 量 很 好 的 通用 文献 [62，80，113]。 伟 大 的 技术 作家 W.Richard 
Stevens 编写 了 一 系列 相关 的 经 典 文献 ， 如 高 级 Unix 编程 [110]、 因 特 网 协议 [105，106，107]， 
以 及 Unix 网 络 编程 [108，109]。 认 真 学 习 Unix 系统 编程 的 学 生 会 想 要 研究 所 有 这 些 内 容 。 不 幸 
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的 是 ，Stevens 在 1999 年 9 月 1 日 逝世 。 我 们 会 永远 记 住 他 的 贡献 。 


家 庭 作业 


** 11.6 A. 修改 TINY 使 得 它 会 原样 返回 每 个 请 求 行 和 请 求 报头 。 
B. 使 用 你 喜欢 的 浏览 器 向 TINY 发 送 一 个 对 静态 内 容 的 请 求 。 把 TINY 的 输出 记录 到 一 个 文件 中 。 
C. 检查 TINY 的 输出 ， 确 定 你 的 浏览 器 使 用 的 HITP 的 版 本 。 
D. 参考 RFC 2616 中 的 HTTP/1.1 标准 ， 确 定 你 的 浏览 器 的 HITP 请 求 中 每 个 报头 的 含义 。 你 可 以 从 
www .rfc-editor.org/rfc.html 获得 RFC 2616。 
** 11.7 ”扩展 TINY， 使 得 它 可 以 提供 MPG 视频 文件 。 用 一 个 真正 的 浏览 器 来 检验 你 的 工作 。 
**11.8 修改 TINY， 使 得 它 在 SIGCHLD 处 理 程序 中 回收 操作 系统 分 配给 CGI 子 进程 的 资源 ， 而 不 是 显 式 地 
等 待 它们 终止 。 
**11.9 修改 TINY， 使 得 当 它 服务 静态 内 容 时 ， 使 用 malloc、rio readn 和 rio writen， 而 不 是 
mmap 和 rio_writen， 来 拷贝 被 请 求 文件 到 已 连接 描述 符 。 
**11.10 A. 写 出 图 11-26 中 CGI adder 函数 的 HIML 表单 。 你 的 表单 应 该 包括 两 个 文本 框 ， 用 户 将 需要 相 
加 的 两 个 数字 填 在 这 两 个 文本 框 中 。 你 的 表单 应 该 使 用 GET 方法 请 求 内 容 。 
B. 用 这 样 的 方法 来 检查 你 的 程序 : 使 用 一 个 真正 的 浏览 器 向 TINY 请 求 表单 ， 向 TINY 提交 填写 好 
的 表单 ， 然 后 显示 adder 生成 的 动态 内 容 。 
**11.11 扩展 TINY， 以 支持 HTTP HEAD 方法 。 使 用 TELNET 作为 Web 客户 端 来 验证 你 的 工作 。 
上 11.12 扩展 TINY， 使 得 它 服 务 以 HTTPPOST 方式 请 求 的 动态 内 容 。 用 你 喜欢 的 Web 浏览 器 来 验证 你 的 工作 。 
妮 11.13 修改 TINY， 使 得 它 可 以 干净 地 处 理 〈 而 不 是 终止 ) 在 write 函数 试图 写 一 个 过 早 关闭 的 连接 时 发 
生 的 SIGPIPE 信号 和 EPIPE 错误 。 


练习 题 答 案 
练习 题 11.1 本 


十 六 进 制 地 址 点 分 十 进 制 地 址 









Oxffffffff 255.255.255.255 
Ox7£000001 127.0.0.1 












0xcdbca079 205.188.160.121 
0x400c950d 64.12.149.13 


练习 题 11.2 
code/netp/hex2dd.c 

1 #include "csapp.h" 

2 

3 int main(int argc, char **argv) 

1 区 

5 struct in_addr inaddr; /* addr in network byte order */ 

6 unsigned int addr; /* addr in host byte order */ 

7 

8 if (argc != 2) { 

9 fprintf(stderr，'Masage: %s “hex number>\n", argv[0]); 

10 exit (0); 


12 sscanf (argv[1], '"%x", &addr); 
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13 inaddr.s_addr = htonl (addr); 
14 printf("%s\n", inet._ntoa(inaddr)); 
15 
16 exit(0); 
17 3} 
code/mnetp/hex2dd.c 
练习 题 11.3 
code/netp/dd2hex.c 
1 #include "csapp.h" ; 
2 
3 int main(int argc, char **argv) 
4 + 
5 struct in_addr inaddr; /* addr in network byte order */ | 
6 unsigned int addr; /* addr in host byte order */ 
8 if (argc != 2) { 
9 fprintf (stderr, "usage: %s <dotted-decimal>\n", argv[0]); 
10 exit (0); | 
11 } 
12 四 
13 if (inet_aton(argv[1], &inaddr) == 0) 
14 app_error("inet_aton error'); 
15 addr = ntohl(inaddr.s._addr); 
16 printf ("Ox%x\n", addr); 
17 
18 exit (0); 
19 } 


code/netp/dd2hex.c 


练习 题 11.4 每 次 我 们 请 求 google.com 的 主机 条 目 时 ， 相应 的 因特网 地 址 列表 以 一 种 不 同 的 、 轮 转 〈round- 
robin) 的 顺序 返回 。 


unix> ./hostinfo google.com 
official hostname: google.com 
address: 74.125.127.100 
address: 74.125.45.100 
address: 74.125.67.100 


unix> ./hostinfo google.com 
official hostname: google.com 
address: 74.125.67.100 
address: 74.125.127.100 
address: 74.125.45.100 


unix> ./hostinfo google.com 
official hostname: google.com 
address: 74.125.45.100 
address: 74.125.67.100 
address: 74.125.127.100 


在 不 同 的 DNS 查询 中 ， 返 回 地 址 的 不 同 顺序 称 为 DNS 轮转 (DNS round-robin)。 它 可 以 用 来 对 一 个 大 
量 使 用 的 域名 的 请 求 做 负载 平衡 。 
练习 题 11.5 标准 1O 能 在 CGI 程序 里 工作 的 原因 是 ， 在 子 进程 中 运行 的 CGI 程序 不 需要 显 式 地 关闭 它 的 
输入 输出 流 。 当 子 进 程 终 止 时 ， 内 核 会 自动 关闭 所 有 描述 符 。 
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正如 我 们 在 第 8 章 学 到 的 ， 如 果 风 辑 控制 流 在 时 间 上 重生， 那么 它们 就 是 并 发 的 (concurrent)。 
这 种 常见 的 现象 称 为 并 发 〈concurrency)， 出 现在 计算 机 系统 的 许多 不 同 层面 上 。 硬件 异常 处 理 
程序 、 进 程 和 Unix 信号 处 理 程序 都 是 大 家 很 熟悉 的 例子 。 
到 目前 为 止 ， 我 们 主要 将 并 发 看 做 是 一 种 操作 系统 内 核 用 来 运行 多 个 应 用 程序 的 机 制 。 但 
是 ， 并 发 不 仅仅 局 限于 内 核 。 它 也 可 以 在 应 用 程序 中 扮演 重要 角色 。 例 如 ， 我 们 已 经 看 到 Unix 
信号 处 理 程 序 如 何 允 许 应 用 啊 应 异步 事件 ， 例如 用 户 键 人 ctr1-c， 或 者 程序 施 访问 虚 拟 和 仓储 器 的 
一 个 未 定义 的 区 域 。 应 用 级 并 发 在 其 他 情况 下 也 是 很 有 用 的 : 
"访问 慢 速 IO 设备 。 当 一 个 应 用 正在 等 待 来 自 慢 速 VO 设备 (例如 磁盘 ) 的 数据 到 达 时 ， 
内 核 会 运行 其 他 进程 ， 使 CPU 保持 繁忙 。 每 个 应 用 都 可 以 按照 类 似 的 方式 ， 通 过 交 蔡 执行 
IO 请 求 和 其 他 有 用 的 工作 来 使 用 并 发 。 
* 与 人 交互 。 和 计算 机 交互 的 人 要 求 计算 机 有 同时 执行 多 个 任务 的 能 力 。 例 如 ， 他 们 在 打印 
一 个 文档 时 ， 可 能 想 要 调整 一 个 窗口 的 大 小 。 现 代 视 窗 系统 利用 并 发 来 提供 这 种 能 力 。 每 
次 用 户 请 求 某 种 操作 《〈 比 如 通过 单 击 鼠标 ) 时 ， 一 个 独立 的 并 发 逻辑 流 被 创建 来 执行 这 个 
操作 。 
“通过 推迟 工作 以 降低 延迟 。 有 时 ， 应 用 程序 能 够 通过 推迟 其 他 操作 和 并 发 地 执行 它们 ， 利 
用 并 发 来 降低 某 些 操作 的 延迟 。 比 如 ， 一 个 动态 存储 分 配器 可 以 通过 推迟 合并 ， 把 它 放 到 
一 个 运行 在 较 低 优先 级 上 的 并 发 “合并 ” 流 中 ， 在 有 空闲 的 CPU 周期 时 充分 利用 这 些 空闲 
周期 ， 从 而 降低 单个 free 操作 的 延迟 。 
。 服 务 多 个 网 络 客户 篇 。 我 们 在 第 11 章 中 学 习 的 迭代 网 络 服 务 器 是 不 现实 的 ， 因 为 它们 一 
次 只 能 为 一 个 客户 端 提供 服务 。 因 此 ， 一 个 慢 速 的 客户 端 可 能 会 导致 服务 器 拒绝 为 所 有 其 
他 客户 端 服务 。 对 于 一 个 真正 的 服务 器 来 说 ， 可 能 期 望 它 每 秒 为 成 百 上 千 的 客户 端 提供 服 
务 ， 由 于 一 个 慢 速 客户 端 导 致 拒绝 为 其 他 客户 端 服务 ， 这 是 不 能 接受 的 。 一 个 更 好 的 方法 
是 创建 一 个 并 发 服务 器 ， 它 为 每 个 客户 端 创建 一 个 单独 的 逻辑 流 。 这 就 允许 服务 器 同时 为 
多 个 客户 端 服 务 ， 并 且 这 也 避免 了 慢 速 客户 端 独占 服务 器 。 
“在 多 核 机 器 上 进行 并 行 计 算 。 许 多 现代 系统 都 配备 有 多 核 处 理 器 ， 多 核 处 理 器 中 包含 多 个 
CPU。 被 划分 成 并 发 流 的 应 用 程序 通常 在 多 核 机 器 上 比 在 单 处 理 器 机 器 上 运行 得 快 因为 
这 些 流 会 并 行 执行 ， 而 不 是 交错 执行 
使 用 应 用 级 并 发 的 应 用 程序 称 为 并 发 程序 (concurrent program)。 现 代 操 作 系统 提供 了 三 种 
es es 
“进程 。 用 这 种 方法 ， 每 个 逻辑 控制 流 都 是 一 个 进程 ， 由 内 核 来 调度 和 维护 。 因 为 进程 
有 独立 的 虚拟 地 址 空间 ， 想 要 和 其 他 流通 信 ， 控 制 流 必 须 使 用 某 种 显 式 的 进程 间 通 信 
(interprocess communication，IPC) 机制 。 z 
“LO 多 路 复 用 。 在 这 种 形式 的 并 发 编程 中 ， 应 用 程序 在 一 个 进程 的 上 下 文中 显 式 地 调度 它 
们 自己 的 逻辑 流 。 逻 辑 流 被 模型 化 为 状态 机 ， 数 据 到 达 文件 描述 符 后 ， 主 程序 显 式 地 从 一 
个 状态 转换 到 另 一 个 状态 。 因 为 程序 是 一 个 单独 的 进程 ， 所 以 所 有 的 流 都 共享 同一 个 地 址 
空间 。 a 
* 线程 。 线 程 是 运行 在 一 个 单一 进程 上 下 文中 的 逻辑 流 ， 由 内 核 进 行 调度 。 你 可 以 把 线程 看 
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成 是 其 他 两 种 方式 的 混合 体 ， 像 进程 流 一 样 由 内 核 进 行 调度 ， 而 像 VO 多 路 复 用 流 一 样 共 
享 同 一 个 虚拟 地 址 空间 。 
本 章 研 究 这 三 种 不 同 的 并 发 编程 技术 。 为 了 使 讨论 更 加 具体 ， 我 们 始终 以 同一 个 应 用 为 
例 一 一 11.4.9 节 中 的 迭代 echo 服务 器 的 并 发 版 本 。 


12.1 基于 进程 的 并 发 编程 


构造 并 发 程序 最 简单 的 方法 就 是 用 进程 ， 使 用 那些 大 家 都 很 熟悉 的 函数 ， 像 fork、exec 
和 waitpid。 例 如 ， 一 个 构造 并 发 服务 器 的 自然 方法 就 是 ， 
在 父 进程 中 接受 客户 端 连接 请 求 ， 然 后 创建 一 个 新 的 子 进程 客户 并 1 | 连接 请 
来 为 每 个 新 客户 端 提供 服务 。 EL 


为 了 了 解 这 是 如 何 工作 的 ， 假 设 我 们 有 两 个 客户 端 和 -- 
个 服务 器 ， 服 务 器 正在 监听 一 个 监听 描述 符 《〈 比 如 描述 符 3) 
上 的 连接 请 求 。 现 在 假设 服务 器 接受 了 客户 端 1 的 连接 请 求 ， 
并 返回 一 个 已 连接 描述 符 ( 比 如 描述 符 4)， 如 图 12-1 所 示 。 clientfd 

在 接受 连接 请 求 之 后 ， 服 务 器 派生 一 个 子 进程 ， 这 个 子 图 12-1 第 一 步 : 服务 器 接受 客户 
进程 获得 服务 器 描述 符 表 的 完整 拷贝 。 子 进程 关闭 它 的 拷贝 喘 的 连接 请 求 


中 的 监听 描述 符 3， 而 父 进程 关闭 它 的 已 连接 描述 符 4 的 找 
贝 ， 因 为 不 再 需要 这 些 描述 符 了 。 这 就 得 到 了 图 12-2 中 的 状态 ， 其 中 子 进程 正 忙 于 为 客户 端 提 
供 服 务 。 因 为 父 、 子 进程 中 的 已 连接 描述 符 都 指向 同一 个 文件 表 表 项 ， 所 以 父 进 程 关闭 它 的 已 连 
接 描述 符 的 拷贝 是 至 关 重要 的 。 否则， 将 永远 不 会 释放 已 连接 描述 符 4 的 文件 表 条 目 ， 而 且 由 此 
引起 的 存储 器 泄漏 将 最 终 消 耗 尽 可 用 的 存储 器 ， 使 系统 崩 演 。 

现在 ， 假 设 在 父 进程 为 客户 端 1 创建 了 子 进程 之 后 ， 它 接受 一 个 新 的 客户 端 2 的 连接 请 求 ， 
并 返回 一 个 新 的 已 连接 描述 符 〈 比 如 描述 符 5)， 如 图 12-3 所 示 。 然 后 ， 父 进程 又 派生 另 一 个 子 
进程 ， 这 个 子 进程 用 已 连接 描述 符 5 为 它 的 客户 端 提供 服务 ， 如 图 12-4 所 示 。 此 时 ， 父 进程 正 
在 等 待 下 一 个 连接 请 求 ， 而 两 个 子 进程 正在 并 发 地 为 它们 各 自 的 客户 端 提 供 服务 。 









数据 传送 


connfd (4) 





clientfd rn ee listenfd (3) 
服务 器 
笑 接 请 求 connfad (5) 
clientfad clientfqd 
图 12-2 第 二 步 : 服务 器 派生 一 个 图 12-3 第 三 步 ; 服务 器 接受 另 一 
子 进 程 为 这 个 客户 端 服务 个 连接 请 求 


12.1.1 基于 进程 的 并 发 服务 器 
图 12-5 展示 了 一 个 基于 进程 的 并 发 echo 服务 器 的 代码 。 第 29 行 调用 的 echo 函数 来 自 于 
图 11-21。 关 于 这 个 服务 器 ， 有 几 点 重要 内 容 需 要 说 明 : 
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“首先 ， 通 常服 务 器 会 运行 很 长 的 时 间 ， 所 以 我 们 必须 要 包括 一 个 SIGCHLD 处 理 程 


序 ， 来 回收 僵 死 (zombie ) 子 进程 的 资源 (第 4 一 9 
行 )。 因 为 当 SIGCHLD 处 理 程序 执行 时 ，SIGCHLD 
信号 是 阻塞 的 ， 而 Unix 信 号 是 不 排队 的 ， 所 以 
SIGCHLD 处 理 程序 必须 准备 好 回收 多 个 盆 死 子 进程 
的 资源 。 

。 其 次 ， 父 子 进 程 必须 关闭 它们 各 目的 connfd (分 别 为 
第 33 行 和 第 30 行 ) 拷贝 。 就 像 我 们 已 经 提 到 过 的 ， 这 
对 父 进程 而 言 尤 为 重要 ， 它 必须 关闭 它 的 已 连接 描述 
符 ， 以 避免 存储 器 泄漏 。 

。 最 后 ， 因 为 套 接 字 的 文件 表 表 项 中 的 引用 计数 ， 直 到 


clientfd listenfqd(3) 


| 服务 器 








父子 进程 的 connfd 都 关闭 了 ， 到 客户 端的 连接 才 会 ee 
终止 ， 图 12-4 第 四 步 : 服务 器 派生 另 一 个 
子 进 程 为 新 的 客户 端 服务 

code/conc/echoserverp.c 

4 #include "csapp.h" 

void echo(int connfd) ; 

! void sigchld_handler(int sig) 

5 1 

5 while (waitpid(-1, 0, WNOHANG) > 0) 

8 return,; 

0 } 

10 

11 int main(int argc, char **argv) 

过 

13 int listenfd, connfd, port; 

14 socklen_t clientlen=sizeof (struct sockaddr._in); 

1S struct Sockaddr_in clientaddr ; 

16 

17 if (argc != 2) { 

418 fprintf (stderr, "usage: %s <port>\n", argv[0]); 

19 exit (0); 

20 } 

21 port = atoi(argv[1]) ; 

22 

23 Signal (SIGCHLD, sigchld_handler); 

24 listenfd = 0pen_listenfd(port) ; 

24 while (1) { 

26 connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 

2 if (Fork() == 0) { 

28 Close(listenfd); /+ Child clovses its listening socket */ 

29 echo (connfd); A Child services client */ 

3 Close (connfd); /A* Child closes connection with client */ 

21 exit(0); /x Ohijd exits */ 

32 

33 Close(connfd); /*x Parent closes connected SCCKet (important!) */ 

34 } 

3 } 
code/conc/echoserverp.c 


图 12-5 ”基于 进程 的 并 发 echo 服务 器 。 父 进程 派生 一 个 子 进程 来 处 理 每 个 新 的 连接 请 求 
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12.1.2 ”关于 进程 的 优 劣 \ 

对 于 在 父 、 子 进程 间 共 享 状态 信息 ， 进 程 有 一 个 非常 清晰 的 模型 ; 共享 文件 表 ， 但 是 不 共享 
用 户 地 址 空间 。 进 程 有 独立 的 地 址 空间 既是 优点 也 是 缺点 。 这 样 一 来 ， 一 个 进程 不 可 能 不 小 心 覆 
盖 另 一 个 进程 的 虚拟 存储 器 ， 这 就 消除 了 许多 令 人 迷惑 的 错误 一 一 这 是 一 个 明显 的 优点 。 

另 一 方面 ， 独 立 的 地 址 空间 使 得 进程 共享 状态 信息 变 得 更 加 困难 。 为 了 共享 信息 ， 它 们 必须 
使 用 显 式 的 IPC〈 进 程 间 通信 ) 机 制 。 基 于 进程 的 设计 的 另 一 个 缺点 是 ， 它 们 往往 比较 慢 ， 因 为 
进程 控制 和 IPC 的 开销 很 高 。 


Unix IPC 

在 本 书 中 ， 你 已 经 遇 到 好 几 个 IPC 的 例子 了 。 第 8 章 中 的 waitpid 函数 和 Unix 信号 是 
基本 的 IPC 机 制 ， 它 们 允许 进程 发 送 小 消息 到 同一 主机 上 的 其 他 进程 。 第 11 章 的 套 接 字 接 口 
是 IPC 的 一 种 重要 形式 ， 它 允许 不 同 主 机 上 的 进程 交换 任意 的 字 节 流 。 然 而 ， 术 语 Unix IPC 通 
常 指 的 是 所 有 允许 进程 和 同一 台 主 机 上 其 他 进程 进行 通信 的 技术 。 其 中 包括 管道 、 先 进 先 出 
(FIFO)、 系 统 V 共享 存储 器 ， 以 及 系统 V 信号 量 (semaphore)。 这 些 机 制 超出 了 我 们 的 讨论 范 
围 。Stevens 的 著作 [108] 是 很 好 的 参考 资料 。 


sd 练习 题 12.1 在 图 12-5 中 ， 并 发 服务 器 的 第 33 行 ， 父 进程 关闭 了 已 连接 描述 符 后 ， 子 进程 仍然 能 够 
使 用 该 描述 符 和 客户 端 通信 。 这 是 为 什么 ? 

攻 练 习题 12.2 如果 我 们 要 删除 图 12-5 中 关闭 已 连接 描述 符 的 第 30 行 ， 从 没有 存储 器 泄漏 的 角度 来 
说 ， 代 码 将 仍然 是 正确 的 。 这 是 为 什么 ? 


12.2 基于 IO 多 路 复 用 的 并 发 编程 


假设 要 求 你 编写 一 个 echo 服务 器 ， 它 也 能 对 用 户 从 标准 输入 键 人 的 交互 命令 做 出 响应 。 在 
这 种 情况 下 ， 服 务 器 必须 响应 两 个 互相 独立 的 IO 事件 : 1) 网 络 客户 端 发 起 连接 请 求 ，2) 用 户 
在 键盘 上 键入 命令 行 。 我 们 先 等 待 哪个 事件 呢 ? 没有 哪个 选择 是 理想 的 。 如 果 在 accept 中 等 
待 一 个 连接 请 求 ， 我 们 就 不 能 响应 输入 的 命令 。 类 似 地 ， 如 果 在 read 中 等 待 一 个 输入 命令 ， 我 
们 了 吏 不 能 响应 任何 连接 请 求 。 

针对 这 种 困境 的 一 个 解决 办 法 就 是 IO 多 路 复 用 (1/O multiplexing) 技术 。 基 本 的 思路 就 是 
使 用 select 函数 ， 要 求 内 核 挂 起 进程 ， 只 有 在 一 个 或 多 个 IO 事件 发 生 后 ， 才 将 控制 返回 给 应 
用 程序 ， 就 像 在 下 面 的 示例 中 一 样 : 

“ 当 集 合 {0，4} 中 任意 描述 符 准备 好 读 时 返回 。 

* 当 集合 {1，2，7} 中 任意 描述 符 准备 好 写 时 返回 。 

* 如 果 在 等 待 一 个 VO 事件 发 生 时 过 了 152.13 秒 ， 就 超时 。 

select 是 一 个 复杂 的 函数 ， 有 许多 不 同 的 使 用 场景 。 我 们 将 只 讨论 第 一 种 场景 : 等 待 一 组 
描述 符 准 备 好 读 。 全 面 的 讨论 请 参考 [109，110]。 


#include <unistd.h> 
#include <sys/types.h> 








int select(int n, fd_set *fdset, NULL, NULL, NULL); 


返回 已 准备 好 的 描述 符 的 非 堆 的 个 数 ， 若 出 错 则 为 一 1。 
FD_ZERO (fd_set *fdset) ; /* Clear all bits in fdset */ 
FD_CLR(int fd, fd_set *fdset); /+ Clear bit fd in fdset */ 
FD_SET(int fd, fd_set *fdset); /+ Turn on bit fd in fdset */ 
FD_ISSET(int fd, fd_set *fdset); /* Is bit fd in fdset on? */ 


处 理 描述 符 集合 的 宏 。 
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select 函数 处 理 类 型 为 fd_set 的 集合 ， 也 叫做 描述 符 集 合 。 逻 辑 上 ， 我 们 将 描述 符 集合 
看 成 一 个 大 小 为 n 的 位 向 量 (在 2.1 节 中 介绍 过 的 ) : \ 
bis ,bi, bo 
每 个 位 b 对 应 于 描述 符 k。 当 和 且 仪 当 b= 1， 描 述 符 k 才 表明 是 描述 符 集 合 的 一 个 元 素 。 只 
允许 你 对 描述 符 集合 做 三 件 事 : 1) 分 配 它们 ，2) 将 一 个 此 种 类 型 的 变量 赋值 给 另 一 个 变量 ， 
3) 用 FD ZERO、FD SET、FD CLR 和 FD ISSET 宏 指 令 来 修改 和 检查 它们 。 
针对 我 们 的 目的 ，select 函数 有 两 个 输入 : 一 个 称 为 读 集 合 的 描述 符 集合 (fdset) 和 该 
读 集 合 的 基数 (n)《〈 实 际 上 是 任何 摘 述 符 集 合 的 最 大 基数 )。select 函数 会 一 直 阻 塞 ， 直 到 读 
集合 中 至 少 有 一 个 描述 符 准备 好 可 以 读 。 当 且 仅 当 一 个 从 该 描述 符 读 取 一 个 字 节 的 请 求 不 会 阻 
塞 时 ， 描 述 符 k 就 表示 准备 好 可 以 读 了 。 作 为 一 个 副作用 ，select 修改 了 参数 fdset 指向 的 
fd_set， 指 明 读 集合 中 一 个 称 为 准备 好 集合 (ready set) 的 子 集 ， 这 个 集合 是 由 读 集 合 中 准备 
好 可 以 读 了 的 描述 符 组 成 的 。 函 数 返 回 的 值 指 明了 准备 好 集合 的 基数 。 注 意 ， 由 于 这 个 副作用 ， 
我 们 必须 在 每 次 调用 select 时 都 更 新 读 集 合 。 


code/conc/select.c 
1 #include "csapp.h" 
2 void echo(int connfd) ; 
3 void command(void); 
4 
5 int main(int argc, char **argVv) 
8 沁 
7 int listenfd, connfd, port; 
8 socklen_t clientlen = sizeof(struct sockaddr._in); 
9 struct sockaddr_in clLientaddr ; 
10 fd_set read_set, ready_set; 
11 
12 if (argc != 2) { 
13 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
14 exit (0); 
15 } 
16 ‘port = atoi(argv[1]); 
17 listenfd = Open_listenfd(port); 
18 
19 FD_ZERO (&read_set); /* Clear read set */ 
20 FD_SET(STDIN_FILENO, &read_set); /* Add stdin to read set */ 
21 FD_SET(listenfd, &read_set); /* Add listenfd to read set */ 
22 
23 while (1) { 
24 ready_set = Tead_set ; 
25 Select (listenfd+1, &ready_set, NULL, NULL, NULL); 
26 if (FD_ISSET(STDIN_FILENO, &ready_set)) 
27 command(); /* Read command line from stdin */ 
28 if (FD_ISSET(listenfd, &ready_set)) { 
29 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
30 echo(connfd); /* Echo client input until EOF */ 
31 Close (connfd); 
32 } 
33 } 
34 
35 
36 void command(void) { 
37 char buf [MAXLINE]; 
38 if (!Fgets(buf, MAXLINE, stdin)) 
39 exit(0); /* EOF */ 
40 printf("%s", buf); /* Process the input command */ 
41 } 


code/conc/select.c 


图 12-6 使 用 IO 多 路 复 用 的 echo 服务器。 服务 器 使 用 select 等 待 监听 描述 符 上 的 连接 请 求 和 标准 
输入 上 的 命令 
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理解 select 的 最 好 办 法 是 研究 一 个 具体 例子 。 图 12-6 展示 了 如 何 利用 select 来 实现 一 
个 迭代 echo 服务 器 ， 它 也 可 以 接受 标准 输入 上 的 用 户 命令 。 一 开始 ， 我 们 用 图 11-7 中 的 open_ 
1istenfd 函数 打开 一 个 监听 描述 符 〈 第 17 行 )， 然 后 使 用 FD_ZERO 创建 一 个 空 的 读 集合 (第 
19 行 ) : 

listenfd . stdin 
3 2 1 0 


read_set (6): 010|10|10 | 


接 下 来 ， 在 第 20 和 21 行 中 ， 我 们 定义 由 描述 符 0〈 标 准 输入 ) 和 描述 符 3( 监 听 描 述 符 ) 
组 成 的 读 集 合 : 


listenfd stdin 
3 2 1 0 


read_set ((0,3): [TToToOTI| 


在 这 里 ， 我 们 开始 典型 的 服务 器 循环 。 但 是 我 们 不 是 调用 accept 函数 来 等 待 一 个 连接 请 
求 ， 而 是 调用 select 函数 ， 这 个 函数 会 一 直 阻 塞 ， 直 到 监听 描述 符 或 者 标准 输入 准备 好 可 以 
读 (第 25 行 )。 例如， 下 面 是 当 用 户 按 回 车 键 ， 因 此 使 得 标准 输入 描述 符 变 为 可 读 时 ，select 
会 返回 的 ready set 的 值 : 


lJistenfd stdin 
3 2 1 0 


ready_set ({0}): 010|10|1 


一 且 select 返回， 我 们 就 用 FD_ISSET 宏 指 令 来 判断 哪个 描述 符 准备 好 可 以 读 了 。 如 果 
是 标准 输入 准备 好 了 (第 26 行 )， 我 们 就 调用 command 函数 ， 该 函数 在 返回 到 主 程序 前 ， 会 
读 、 解 析 和 响应 命令 。 如果 是 监听 描述 符 准备 好 了 〔 第 28 行 )， 我 们 就 调用 accept 来 得 到 一 
个 已 连接 描述 符 ， 然 后 调用 图 12-21 中 的 echo 函数 ， 它 会 将 来 自 客 户 端的 每 一 行 又 回 送 回 去 ， 
直到 客户 端 关闭 这 个 连接 中 它 的 那 一 端 。 

虽然 这 个 程序 是 使 用 select 的 一 个 很 好 示例 ， 但 是 它 仍然 留 下 了 一 些 问 题 待 解决 。 问 题 
是 一 旦 它 连接 到 某 个 客户 端 ， 就 会 连续 回 送 输入 行 ， 直 到 客户 端 关闭 这 个 连接 中 它 的 那 一 端 。 因 
此 ， 如 果 你 键入 一 个 命令 到 标准 输入 ， 你 将 不 会 得 到 响应 ， 直 到 服务 器 和 客户 端 之 间 结 束 。 一 个 
更 好 的 方法 是 更 细 粒 度 的 多 路 复 用 ， 服 务 器 每 次 循环 〈 至 多 ) 回 送 一 个 文本 行 。 
练习 题 12.3 ”在 大 多 数 的 Unix 系统 里 ， 在 标准 输入 上 键入 ctr1-d 表 示 EOF。 在 图 12.6 中 的 程序 阻 
塞 在 对 select 的 调用 上 时 ， 如 果 你 键入 ctz1-Q 会 发 生 什 么 ? 
12.2.1 基于 I/O 多 路 复 用 的 并 发 事件 驱动 服务 器 

IO 多 路 复 用 可 以 用 做 并 发 事件 驱动 (event-driven) 程序 的 基础 ， 在 事件 驱动 程序 中 ， 流 是 
因为 某 种 事件 而 前 进 的 。 一 般 概念 是 将 逻辑 流 模型 化 为 状态 机 。 不 严格 地 说 ， 一 个 状态 机 (state 
machine) 就 是 一 组 状态 (state)、 输 入 事件 (input event) 和 转移 (transition)， 其 中 转移 就 是 将 
状态 和 输入 事件 映射 到 状态 。 每 个 转移 都 将 一 个 〈 输 入 状态 ， 输 入 事件 ) 对 映射 到 一 个 输出 状 
态 。 自 循环 〈self-loop) 是 同一 输入 和 输出 状态 之 间 的 转移 。 通 常 把 状态 机 画 成 有 向 图 ， 其 中 节 
尽 表 示 状 态 。， 有 辣 弧 表示 转移 ， 而 统 上 的 标号 表示 输入 事件 。 一 个 状态 机 从 某 种 初始 状态 开始 执 
行 。 每 个 输入 事件 都 会 引发 一 个 从 当前 状态 到 下 一 状态 的 转移 。 

对 于 每 个 新 的 客户 端 玉 基于 IO 多 路 复 用 的 并 发 服务 器 会 创建 一 个 新 的 状态 机 %， 并 将 它 和 
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已 连接 描述 符 d 联系 起 来 。 如 图 12-7 所 示 ， 每 个 状态 机 s 都 有 一 个 状态 “等 待 描 述 符 准备 好 可 
读 ”)、 一 个 输入 事件 (“描述 符 a 准备 好 可 以 读 了 ”) 和 一 个 转移 “从 描述 符 a 读 一 个 文本 行 ”)。 


输入 事件 : “描述 符 转移 : “从 描述 符 
d. 读 一 个 文本 行 ” 









状态 ， “等 待 描述 符 
小 准备 好 可 读 ” 






图 12-7 并 发 事件 驱动 echo 服务 器 中 届 辑 流 的 状态 


服务 器 使 用 IO 多 路 复 用 ， 借 助 select 函数 检测 输入 事件 的 发 生 。 当 每 个 已 连接 描述 符 准 
备 好 可 读 时 ， 服 务 器 就 为 相应 的 状态 机 执行 转移 ， 在 这 里 就 是 从 描述 符 读 和 写 回 一 个 文本 行 。 

图 12-8 展示 了 一 个 基于 IO 多 路 复 用 的 并 发 事件 驱动 服务 器 的 完整 示例 代码 。 活 动 客户 端 
的 集合 维护 在 一 个 Pool 〈 池 ) 结构 里 〈 第 3 ~ 11 行 )。 在 通过 调用 init_pool 初始 化 池 〈 第 
29 行 ) 之 后 ， 服 务 器 进入 一 个 无 限 循 环 。 在 循环 的 每 次 迭代 中 ， 服 务 器 调用 select 函数 来 
检测 两 种 不 同类 型 的 输入 事件 : a) 来 自 一 个 新 客户 端的 连接 请 求 到 达 ，b) 一 个 已 存在 的 客户 
端的 已 连接 描述 符 准备 好 可 以 读 了 。 当 一 个 连接 请 求 到 达 时 (第 36 行 )， 服 务 器 打开 连接 (第 
37 行 )， 并 调用 add_client 水 数 ， 将 该 客户 端 添 加 到 池 里 (第 38 行 )。 最 后 ， 服 务 器 调用 
check_clients 函数 ， 把 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 回 送 回 去 (第 42 行 )。 


code/conc/echoservers.c 
1 #include "csapp.h" 
2 
3 typedef struct { /* Represents a pool of connected descriptors */ 
4 int maxfd; /* Largest descriptor in read_set */ 
5 fd_set read_set; /* Set of all active descriptors */ 
6 fd_set ready_set; /+* Subset of descriptors ready for reading */ 
7 int Dready ; /yx Number of ready descriptors from gelect */ 
8 int maxi; /* Highwater index into client array */ 
9 | int clientfd[FD_SETSIZE]; /* Set of active descriptors */ 
10 rio t clientrio[FD_SETSIZE]; /+ Set of active read buffers */ 
11 } pool; 
12 
13 int byte_cnt = 0; /* Counts total bytes received by server */ 
14 
15 int main(int argc, char **argv) 
16 1 
17 int listenfd, connfd, port; 
18 socklen_t clientlen = sizeof(struct sockaddr_in); 
19 struct sockaddr._in clientaddr; 
20 static pool pool; 
21 
22 if (argc != 2) 1 
23 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
24 exit (0); 
25 } 
. 26 port = atoi(argv[1]); 
27 
28 listenfd = Open._listenfd(port); 
29 init_pool(listenfd, &pool); 


图 12-8 ”基于 J/O 多 路 复 用 的 并 发 echo 服务 器 。 每 次 服务 器 迭代 都 回 送 来 自 每 个 准备 好 的 描述 符 的 文本 行 
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30 while (1) { 

31 /A* Wait for listening/cormected descriptor(s) to becone ready */ 
32 pool.ready..set = Pool.read_set ; 

33 pool .nready = Select(pool.maxfd+1, &pool.ready_set, NULL, NULL, NULL); 
3 和 

35 /x* Tf listening descriptor ready, add new client to pool */ 

36 if (FD_ISSET(listenfd, &pool.ready_set)) { 

37 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 

38 add_client (connfd, &pool); 

39 } 

40 

41 /* Echo a text Jine from each ready connected descriptor */ - 

42 check_clients(&pool); 

43 下 

44 } 


code/conc/echoservers.c 


图 12-8 ( 续 ) 


init_pool 晴 数 〈 见 图 12-9) 初始 化 客户 端 池 。clientfq 数组 表示 已 连接 描述 符 的 集合 ， 
其 中 整数 一 1 表示 一 个 可 用 的 槽 位 。 初 始 时 ， 已 连接 描述 符 集合 是 空 的 (第 5 ~ 7 行 )， 而 且 监 
听 摘 述 符 是 select 读 集合 中 唯一 的 描述 符 (第 10 ~ 12 行 )。 


code/conc/echoservers.c 


void init_pool(int listenfd, pool *p) 


2 疏 

3 /+ Tunitially, there are no connected descriptors */ 
4 int i; 

5 p~>maxi = -1,; 

6 for (i=0; i< FD_SETSIZE; i++) 

六 p~>clientfd[i] = -1; 

3 

9 /* Initially, listenfd is only memnber of select read set */ 
10 p->maxfd = listenfd,; | | 

11 FD_ZERO (&p->read._set); 

12 FD_SET(listenfd, &p->read._set); 

4- 过 


code/conc/echoservers.c 


图 12-9 init_pool : 初始 化 活动 客户 端 池 


add_client 函数 〈 见 图 12-10) 添加 一 个 新 的 客户 端 到 活动 客户 端 池 中 。 在 clientfd 
数组 中 找到 一 个 空 槽 位 后 ， 服 务 器 将 这 个 已 连接 描述 符 添 加 到 数组 中 ， 并 初始 化 相应 的 RIO 读 
缓冲 区 ， 这 样 一 来 我 们 就 能 够 对 这 个 描述 符 调 用 rio _ readlineb (第 8 一 9 行 )。 然 后 ， 我 们 
将 这 个 已 连接 描述 符 添加 到 select 读 集 合 〈 第 12 行 )， 并 更 新 该 池 的 一 些 全 局 属性 。maxfda 
变量 (第 15 ~ 16 行 ) 记录 了 select 的 最 大 文件 描述 符 。maxi 变量 (第 17 ~ 18 行 ) 记录 的 
是 到 clientfd 数组 的 最 大 索引 ， 这 样 check_clients 函数 就 无 需 搜索 整 个 数组 了 。 

check_clients 因数 《〈 见 图 12-11) 回 送 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 。 
如 果 成 功 地 从 描述 符 读 取 了 一 个 文本 行 ， 那 么 我 们 就 将 该 文本 行 回 送 到 客户 端 (第 15 ~ 18 行 )。 
注意 ， 在 第 15 行 我 们 维护 着 一 个 从 所 有 客户 端 接收 到 的 全 部 字 节 的 累计 值 。 如 果 因 为 客户 端 关 
闭 这 个 连接 中 它 的 那 一 端 ， 检 测 到 EOF， 那 么 我 们 将 关闭 这 边 的 连接 端 (第 23 行 )， 并 从 池 中 
清除 掉 这 个 描述 符 (第 24 ~ 25 行 )。 
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code/conc/echoservers.c 


void add_client(int connfd, pool *p) 


{ 
int i; 
p->nready--; 
for (i = 0; i < FD_SETSIZE; i++) /x Find an available slot */ 
if (p->clientfd[i] < 0) { 
/* Add connected descriptor to the pool */ 
p->clientfd[i] = connfd; 
Rio_readinitb(&p->clientrio[i] , connfd); 
/+ Add the descriptor to descriptor set */ 
FD_SET(connfd, &p->read_set); 
/+ Update max descriptor and pool highwater mark */ 
if (connfd > p->maxfd) 
p~->maxfd = connfd,; 
if (i > p->maxi) 
p->maxi = i; 
break ; 
} 
if (i == FD_SETSIZE) /* Couldn't find an empty slot +*/ 
app_error("add_client error: Too many clients'"); 
} 


code/conc/echoservers.c 


图 12-10 adq_client : 向 池 中 添加 一 个 新 的 客户 端 连接 


code/conc/echoservers.c 


void check_clients(pool *p) 


{ 
int i, connfd, nn 
char buf [MAXLINE] ; 
rio_t rio; 
for (i = 0; (i <= p->maxi) && (p->nready > 0); i++) { 
connfd = p->clientfd[i]; 
rio = p->clientrio[il]; 
/x* Tf the descriptor is ready, echo a text line from it */ 
if ((connfd > 0) && (FD_ISSET(connfd, &p->ready_set))) 荆 
p->nready--; 
if ((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
byte_cnt += 1n; 
printf("Server received %d (%d total) bytes on fd %d\n", 
n, byte_cnt, connfd); 
Rio_writen(connfd, buf, n); 
} 
/* EOF detected, remove descriptor from pool */ 
else { 
Close (connfd).: 
FD_CLR(connfd, &p->read_set); 
p->clientfd[i] = -1; 
} 
} 
} 
} 


code/conc/echoservers.c 


图 12-11 check clients :为 准备 好 的 客户 端 连接 服务 
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根据 图 12-7 中 的 有 限 状 态 模 型 ，select 函数 检测 到 输入 事件 ， 而 add_client 函数 创建 
一 个 新 的 逻辑 流 (状态 机 )。check clients 函数 通过 回 送 输入 行 来 执行 状态 转移 ， 而 且 当 客 
户 端 完成 文本 行 发 送 时 ， 它 还 要 删除 这 个 状态 机 。 
12.2.2 1/O 多 路 复 用 技术 的 优 劣 

图 12-8 中 的 服务 器 提供 了 一 个 很 好 的 基于 IO 多 路 复 用 的 事件 驱动 编程 的 优 缺 点 示例 。 事 
件 驱动 设计 的 一 个 优点 是 ， 它 比 基 于 进程 的 设计 给 了 程序 员 更 多 的 对 程序 行为 的 控制 。 例 如 ， 我 
们 可 以 设想 编写 一 个 事件 驱动 的 并 发 服务 器 ， 为 某 些 客户 端 提 供 它 们 需要 的 服务 ， 而 这 对 于 基于 
进程 的 并 发 服务 器 来 说 ， 是 很 困难 的 。 

另 一 个 优点 是 ， 一 个 基于 IO 多 路 复 用 的 事件 驱动 服务 器 是 运行 在 单一 进程 上 下 文中 的 ， 因 
此 每 个 逻辑 流 都 能 访问 该 进程 的 全 部 地 址 空间 。 这 使 得 在 流 之 间 共 享 数据 变 得 很 容易 。 一 个 与 作 
为 单个 进程 运行 相关 的 优点 是 ， 你 可 以 利用 熟悉 的 调试 工具 ， 例 如 GDB， 来 调试 你 的 并 发 服务 
器 ， 就 像 对 顺序 程序 那样 。 最 后 ， 事 件 驱 动 设计 常常 比 基 于 进程 的 设计 要 高 效 得 多 ， 因 为 它们 不 
需要 进程 上 下 文 切 换 来 调度 新 的 流 。 

事件 驱动 设计 的 一 个 明显 的 缺点 就 是 编码 复杂 。 我 们 的 事件 驱动 的 并 发 echo 服务 器 需要 的 
代码 比 基 于 进程 的 服务 器 多 三 倍 。 不 幸 的 是 ， 随 着 并 发 粒度 的 减 小 ， 复 杂 性 还 会 上 升 。 这 里 的 粒 
度 是 指 每 个 逻辑 流 每 个 时 间 片 执行 的 指令 数量 。 例 如 ， 在 我 们 的 示例 并 发 服务 器 中 ， 并 发 粒度 就 
是 读 一 个 完整 的 文本 行 所 需要 的 指令 数量 。 只 要 某 个 逻辑 流 正 忙 于 读 一 个 文本 行 ， 其 他 逻辑 流 就 


不 可 能 有 进展 。 对 我 们 的 例子 而 言 这 就 很 好 了 ， 但 是 它 使 得 我 们 的 事件 驱动 服务 器 在 “故意 只 发 


送 部 分 文本 行 然后 就 停止 ”的 恶意 客户 端的 攻击 面前 显得 很 脆弱 。 修 改 事件 驱动 服务 器 来 处 理 部 
分 文本 行 不 是 一 个 简单 的 任务 ， 但 是 基于 进程 的 设计 却 能 处 理 得 很 好 , . 而且 是 自动 处 理 的 。 基 于 
a a 点 是 它们 不 能 充分 利用 多 核 处 理 器 。 

| 练习 题 12.4 在 如 图 12-8 所 示 的 服务 器 中 ， 我 们 在 每 次 调用 select 之 前 都 立即 小 心地 重新 初始 化 
pool.ready set 变量 。 这 是 为 什么 ? 


12.3 ”基于 线程 的 并 发 编程 


到 目前 为 止 ， 我 们 已 经 看 到 了 两 种 创建 并 发 逻辑 流 的 方法 。 在 第 一 种 方法 中 ， 我 们 为 每 个 流 
使 用 了 单独 的 进程 。 内 核 会 自动 调度 每 个 进程 。 每 个 进程 有 它 自 己 的 私有 地 址 空间 ， 这 使 得 流 
共享 数据 很 困难 。 在 第 二 种 方法 中 ， 我 们 创建 自己 的 逻辑 流 ， 并 利用 VO 多 路 复 用 来 显 式 地 调度 
流 。 因 为 只 有 一 个 进程 ， 所 有 的 流 共 享 整个 地 址 空间 。 这 一 节 介绍 第 三 种 方法 一 一 基于 线程 ， 它 
是 这 两 种 方法 的 混合 。 

线程 (thread) 就 是 运行 在 进程 上 下 文中 的 逻辑 流 。 迄今 在 本 书 里 ， 程 序 都 是 由 每 个 进程 中 
一 个 线程 组 成 的 。 但 是 现代 系统 也 允许 我 们 编写 一 个 进程 里 同时 运行 多 个 线程 的 程序 。 线 程 由 内 
核 自 动 调度 。 每 个 线程 都 有 它 自 己 的 线程 上 下 文 (thread context)， 包 括 一 个 唯一 的 整数 线程 ID 
(Thread ID，TID)、 栈 、 栈 指针 、 程 序 计数 器 、 通 用 目的 寄存 器 和 条 件 码 。 所 有 的 运行 在 一 个 进 
程 里 的 线程 共享 该 进程 的 整个 虚拟 地 址 空间 。 

基于 线程 的 逻辑 流 结合 了 基于 进程 和 基于 VO 多 路 复 用 的 流 的 特性 。 同 进程 一 样 ， 线 程 由 内 
核 自 动 调度 ， 并 且 内 核 通 过 一 个 整数 ID 来 识别 线程 。 同 基于 IO 多 路 复 用 的 流 一 样 ， 多 个 线程 
运行 在 单一 进程 的 上 下 文中 ， 因 此 共享 这 个 进程 虚拟 地 址 空间 的 整个 内 容 ， 包 括 它 的 代码 、 数 
据 、 堆 、 共 享 库 和 打开 的 文件 。 

12.3.1 线程 执行 模型 

多 线程 的 执行 模型 在 某 些 方面 和 多 进程 的 执行 模型 是 相似 的 。 思 考 一 下 图 12-12 中 的 示例 。 

每 个 进程 开始 生命 周期 时 都 是 单一 线程 ， 这 个 线程 称 为 主线 程 (main thread)。 在 某 一 时 刻 ， 主 
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线程 创建 一 个 对 等 线程 (peer thread)， 从 这 个 时 间 点 开始 ， 两 个 线程 就 并 发 地 运行 。 最 后 ， 因 
为 主线 程 执行 一 个 慢 速 系统 调用 ， 例 如 read 或 sleep， 或 者 因为 i 
控制 就 会 通过 上 下 文 切 换 传递 到 对 等 线程 。 对 等 线程 会 执行 一 段 时 间 ， 然 后 控制 传递 回 主 线程， 
依次 类 推 。 

在 一 些 重要 的 方面 ， 线 程 执行 是 不 同 于 ”时间 
进程 的 。 因 为 一 个 线程 的 上 下 文 要 比 一 个 进 
程 的 上 下 文 小 得 多 ， 线 程 的 上 下 文 切换 要 比 
进程 的 上 下 文 切换 快 得 多 。 男 一 个 不 同 就 是 
线程 不 像 进程 那样 ， 不 是 按照 严格 的 父子 层 
次 来 组 织 的 。 和 一 个 进程 相关 的 线程 组 成 一 
个 对 等 (线程 ) 池 (poo1)， 独 立 于 其 他 线 
程 创建 的 线程 。 主 线程 和 其 他 线程 的 区 别 仅 
在 于 它 总 是 进程 中 第 一 个 运行 的 线程 。 对 等 
(线程 ) 池 概念 的 主要 影响 是 ， 一 个 线程 可 
以 杀 死 它 的 任何 对 等 线程 ， 或 者 等 等 它 的 任 
意 对 等 线程 终止 。 田 外 ， 每 个 对 等 线程 者 能 图 12-12 并 发 线程 执行 
读 写 相同 的 共享 数据 。 

12.3.2 ”Posix 线程 

Posix 线程 〈Pthreads ) 是 在 C 程序 中 处 理 线程 的 一 个 标准 接口 。 它 最 早出 现在 1995 年 ， 而 
且 在 大 多 数 Unix 系统 上 都 可 用 。Pthreads 定义 了 大 约 60 个 函数 ， 人 允许 程序 创建 、 杀 死 和 回收 线 
程 ， 与 对 等 线程 安全 地 共享 数据 ， 还 可 以 通知 对 等 线程 系统 状态 的 变化 。 

图 12-13 展示 了 一 个 简单 的 Pthreads 程序 。 主 线程 创建 一 个 对 等 线程 ， 然 后 等 待 它 的 终止 。 
对 等 线程 输出 “Hello，world!\n” 并 且 终 止 。 当 主线 程 检 测 到 对 等 线程 终止 后 ， 它 就 通过 调 
用 exit 终止 该 进程 。 


》 线程 上 下 文 切换 


} 线程 上 下 文 切 换 


} 线程 上 下 文 切 换 





code/conc/hello.c 


#include "csapp.h" 
void *thread(void *vargp); 


int main() 

6 pthread_t tid; | 

7 Pthread_create(&tid, NULL, thread, NULL); 
8 Pthread_join(tid，NULL) ; 

9 exit (0); 

10 3 


1 
2 
3 
4 
5 


12 ”void *thread(void *vargp) /+ Thread routine */ 

13 +{ 

14 printf ("Hello, world!\n"), 

15 return NULL ; 

16 3} | 

code/conc/hello.c 


图 12-13 hello.c : Pthreads “Hello, world!” 程 序 


这 是 我 们 看 到 的 第 一 个 线程 化 的 程序 ， 所 以 让 我 们 仔细 地 解析 它 。 线 程 的 代码 和 本 地 数据 被 
封装 在 一 个 线程 例 程 (thread routine) 中 。 正 如 第 二 行 里 的 原型 所 示 ， 每 个 线程 例 程 都 以 一 个 通 
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用 指针 作为 输入 ， 并 返回 一 个 通用 指针 。 如 果 想 传递 多 个 参数 给 线程 例 程 ， 那 么 你 应 该 将 参数 放 
到 一 个 结构 中 ， 并 传递 一 个 指向 该 结构 的 指针 。 相 似 地 ， 如 果 你 想 要 线程 例 程 返回 多 个 参数 ， 你 
可 以 返回 一 个 指向 一 个 结构 的 指针 。 

第 4 行 标 出 了 主线 程 代码 的 开始 。 主 线程 声明 了 一 个 本 地 变量 tid， 它 可 以 用 来 存放 对 等 线 
程 的 线程 ID (第 6 行 )。 主 线程 通过 调用 pthread_create 晴 数 创建 一 个 新 的 对 等 线程 (第 7 
行 )。 当 对 pthread _create 的 调用 返回 时 ， 主 线程 和 新 创建 的 对 等 线程 同时 运行 ， 并 且 tid 
包含 新 线程 的 ID 。 通 过 调用 pthread join， 主线 程 等 待 对 等 线程 终止 〈 第 8 行 )。 最 后 ， 主 线 
程 调用 exit (第 9 行 )， 终 止 当时 运行 在 这 个 进程 中 的 所 有 线程 〈 在 这 个 示例 中 就 只 有 主线 程 )。 

第 12 一 16 行 定义 了 对 等 线程 的 线程 例 程 。 它 只 打印 一 个 字符 串 ， 然 后 就 通过 执行 第 15 行 
中 的 return 语句 来 终止 对 等 线程 。 

12.3.3 ”创建 线程 
线程 通过 调用 pthread_create 函数 来 创建 其 他 线程 。 


#include <pthread.h> 
typedef void *(func) (void *); 


int pthread_create(Pthread_t *tid, pthread_attr_t *attr, 
func *f, void *arg); 


返回 : 若 成 功 则 返回 0， 车 出 错 则 为 非 零 。 





pthread_create 函数 创建 一 个 新 的 线程 ， 并 带 着 一 个 输入 变量 arg， 在 新 线程 的 上 下 文 
中 运行 线程 例 程 E。 能 用 attz 参数 来 改变 新 创建 线程 的 默认 属性 。 改 变 这 些 属性 已 超出 我 们 
学 习 的 范围 ， 并 且 在 我 们 的 示例 中 ， 我 们 总 是 用 一 个 为 NULL 的 attr 参数 来 调用 pthread_ 
create 函数 。 

当 Pthread_create 返 回 时 ， 参 数 tid 包 含 新 创建 线程 的 ID。 新 线程 可 以 通过 调用 
pthread_self 函数 来 获得 它 目 己 的 线程 卫 。 


#include “pthread .hbh> 


pthread_t pthread_self(void) ; 
-返回 2 返回 调用 者 的 线程 ID 。 





12.3.4 终止 线程 
一 个 线程 是 以 下 列 方式 之 一 来 终止 的 : 
。 当 顶层 的 线程 例 程 返 回 时 ， 线 程 会 隐 式 地 终止 。 
。 通 过 调用 pthread exit 函数 ， 线 程 会 显 式 地 终止 。 如 果 主线 程 调用 pthread _ exit， 
它 会 等 待 所 有 其 他 对 等 线程 终止 ， 然 后 再 终止 主线 程 和 整个 进程 ， 返 回 值 为 thread 


return,。 


#include <pthread.h> 


void pthread_exit(void *thread_return); 


返回 : 车 成 功 则 返回 0， 若 出 错 则 为 非 零 。 





。 某 个 对 等 线程 调用 Unix 的 exit 函数 ， 该 函数 终止 进程 以 及 所 有 与 该 进程 相关 的 线程 。 
。 另 一 个 对 等 线程 通过 以 当前 线程 卫 作为 参数 调用 Pthread_cancle 函数 来 终止 当前 线程 。 
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#include <pthread.h> 


int pthread_cancel(pthread_t tid) ; 
返回 : 车 成 功 则 返回 0， 若 出 锚 则 为 非 索 。 





12.3.5 ”回收 已 终止 线程 的 资源 
线程 通过 调用 pthread_join 酒 数 等 待 其 他 线程 终止 。 


#include <pthread.h> 


int pthread_join(pthread_t tid, void **thread_return); 
返回 : 车 成 功 则 返回 0， 若 出 错 则 为 非 替 。 





pthread_ join 函数 会 阻塞 ， 直 到 线程 tid 终止 ， 将 线程 例 程 返回 的 《void*) 指针 赋值 
为 thread_return 指向 的 位 置 ， 然 后 回收 已 终止 线程 占用 的 所 有 存储 器 资源 。 

注意 ， 和 Unix 的 wait 函数 不 同 ，pthread join 函数 只 能 等 待 一 个 指定 的 线程 终止。 
没有 办 法 让 pthread_wait 等 待 任意 一 个 线程 终止 。 这 使 得 代码 更 加 复杂 ， 因 为 它 迫 使 我 们 去 
使 用 其 他 一 些 不 那么 直观 的 机 制 来 检测 进程 的 终止 。 实 际 上 ，Stevens 在 [109] 中 就 很 有 说 服 力 地 
论证 了 这 是 规范 中 的 一 个 错误 。 
12.3.6 分离 线程 

在 任何 一 个 时 间 点 上 ， 线 程 是 可 结合 的 (joinable) 名 或 者 是 分 离 的 (detached)。 一 个 可 结合 
的 线程 能 够 被 其 他 线程 收回 其 资源 和 杀 死 。 在 被 其 他 线程 回收 之 前 ， 它 的 存储 器 资源 〈 例 如 栈 ) 
是 没有 被 释放 的 。 相 反 ， 一 个 分 离 的 线程 是 不 能 被 其 他 线程 回收 或 杀 死 的 。 它 的 存储 器 资源 在 它 
终止 时 由 系统 自动 释放 。 

默认 情况 下 ， 线 程 被 创建 成 可 结合 的 。 为 了 避免 存储 器 泄漏 ， 每 个 可 结合 线程 都 应 该 要 么 被 
其 他 线程 显 式 地 收回 ， 要 么 通过 调用 pthread_detach 函数 被 分 离 。 

pthread detach 函数 分 离 可 结合 线程 tidq。 线 程 能 够 通过 以 pthread self () 为 参数 
的 pthread_ detach 调用 来 分 离 它 们 自己 。 


#include <pthread.h> 


int pthread_detach(pthread_t tid); 





返回 : 车 成 功 则 返回 0， 若 出 错 则 为 非 索 。 


尽管 我 们 的 一 些 例子 会 使 用 可 结合 线程 ， 但 是 在 现实 程序 中 ， 有 很 好 的 理由 要 使 用 分 离 的 线 
程 。 例 如 ， 一 个 高 性 能 Web 服务 器 可 能 在 每 次 收 到 Web 浏览 器 的 连接 请 求 时 都 创建 一 个 新 的 对 
等 线程 。 因 为 每 个 连接 都 是 由 一 个 单独 的 线程 独立 处 理 的 ， 所 以 对 于 服务 器 而 言 ， 就 很 没有 必要 
(实际 上 也 不 愿意 ) 显 式 地 等 待 每 个 对 等 线程 终止 。 在 这 种 情况 下 ， 每 个 对 等 线程 都 应 该 在 它 开 
始 处 理 请 求 之 前 分 离 它 自 身 ， 这 样 就 能 在 它 终 止 后 回收 它 的 存储 器 资源 了 。 
12.3.7 初始 化 线程 

pthread_once 函数 允许 你 初始 化 与 线程 例 程 相关 的 状态 。 


#include <pthread.h> 


pthread_once_t once_control = PTHREAD_ONCE_INIT; 


int pthread_once(pthread_once_t *once_control, 
void (*init_routine) (void)); 
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once control 变量 是 一 个 全 局 或 者 静态 变量 ， 总 是 被 初始 化 为 PTHREAD ONCE INIT。 
当 你 第 一 次 用 参数 once control 调用 pthread once 时 ， 它 调用 init routine, 这 是 
一 个 没有 输入 参数 ， 也 不 返回 什么 的 函数 。 接 下 来 的 以 once_control 为 参数 的 pthread_ 
once 调用 不 做 任何 事情 。 无 论 何 时 ， 当 你 需要 动态 初始 化 多 个 线程 共享 的 全 局 变量 时 ， 
pthread_once 函数 是 很 有 用 的 。 我 们 将 在 12.5.5 节 里 看 到 一 个 示例 。 
12.3.8 ”一 个 基于 线程 的 并 发 服务 器 

图 12-14 展示 了 基于 线程 的 并 发 echo 服务 器 的 代码 。 整 体 结构 类 似 于 基于 进程 的 设计 。 主 
线程 不 断 地 等 待 连接 请 求 ， 然 后 创建 一 个 对 等 线程 处 理 该 请 求 。 虽 然 代 码 看 似 简 单 ， 但 是 有 几 
个 普遍 而 且 有 些微 妙 的 问题 需要 我 们 更 仔细 地 看 一 看 。 第 一 个 问题 是 当 我 们 调用 pthread 
create 时 ， 如 何 将 已 连接 描述 符 传递 给 对 等 线程 。 最 明显 的 方法 就 是 传递 一 个 指向 这 个 描述 符 


的 指针 ， 就 像 下 面 这 样 


connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
Pthread_create(&tid, NULL, thread, &connfd); 


然后 ， 我 们 让 对 等 线程 间接 引用 这 个 指针 ， 并 将 它 赋值 给 一 个 局 部 变量 ， 如 下 所 示 : 


void *thread(void *vargp) { 
int connfd = *((int *)vargp); 


} z 
然而 ， 这 样 可 能 会 出 错 ， 因 为 它 在 对 等 线程 的 赋值 语句 和 主线 程 的 accept 语句 间 引 入 了 
竞争 〈race)。 如 果 赋 值 语句 在 下 一 个 accept 之 前 完成 ， 那 么 对 等 线程 中 的 局 部 变量 connfda 
就 得 到 正确 的 描述 符 值 。 然 而 ， 如 果 赋 值 语 句 是 在 accept 之 后 才 完 成 的 ， 那 么 对 等 线程 中 的 
局 部 变量 connfd 就 得 到 下 一 次 连接 的 描述 符 值 。 那 么 不 幸 的 结果 就 是 ， 现 在 两 个 线程 在 同一 
个 描述 符 上 执行 输入 和 输出 。 为 了 避免 这 种 潜在 的 致命 竞争 ， 我 们 必须 将 每 个 accept 返回 的 
已 连接 描述 符 分 配 到 它 自己 的 动态 分 配 的 存储 器 块 ， 如 第 21~22 行 所 示 。 我 们 会 在 12.7.4 节 中 
回 过 来 讨论 竞争 的 问题 。 z z 


code/conc/echoservert.c 
1 #include "csapp.h" 
之 
3 void echo(int connfd); 
4 void *thread(void *vargp); 
5 
6 int main(int argc, char **argv) 
7 
8 int listenfd, *connfdp, port; 
9 Socklen_t clientlen=sizeof (struct sockaddr_in), 
10 struct sockaddr_in clientaddr; 
11 pthread._t tid.; 
12 
13 if (argc != 2) { 
14 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
15 exit (0); 
16 上 
17 port = atoi(Cargv[L1L]) ; 


图 12-14 ”基于 线程 的 并 发 echo 服务 器 
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19 listenfd = Open._listenfd(port); 

20 while (1) { 

21 connfdp = Malloc(sizeof (int)); 

22 *connfdp = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
23 Pthread_create(&tid, NULL, thread, connfdp); 

24 } 

25 } 


27 /* Thread routine */ 
28 void *thread(void *vargp) 
29 攻 


30 int connfd = *((int *)vargp); 
31 Pthread._detach(pthread.self ()); 
32 Free(vargp) ; 

33 echo(connfd) ; 

34 Close(connfd) ; 

35 return NULL ; 

36 } 


code/conc/echoservert.c 


图 12-14 ( 续 ) 


另 一 个 问题 是 在 线程 例 程 中 避免 存储 器 泄漏 。 既 然 我 们 不 显 式 地 收回 线程 ， 我 们 就 必须 分 离 
每 个 线程 ， 使 得 在 它 终止 时 它 的 存储 器 资源 能 够 被 收回 (第 31 行 )。 更 进一步 ， 我 们 必须 小 心 释 
放 主 线程 分 配 的 存储 器 块 〈 第 32 行 )。 

也 练习 题 12.5 ”在 图 12-5 中 基于 进程 的 服务 器 中 ， 我 们 在 两 个 位 置 小 心地 关闭 了 已 连接 描述 符 : 父 进 

程 和 子 进程 。 然 而 ， 在 图 12-14 中 基于 线程 的 服务 器 中 ， 我 们 只 在 一 个 位 置 关闭 了 已 连接 描述 符 : 对 

等 线程 。 这 是 为 什么 ? 


12.4 ”多 线程 程序 中 的 共享 变量 


从 一 个 程序 员 的 角度 来 看 ， 线 程 很 有 吸引 力 的 一 个 方面 就 是 多 个 线程 很 容易 共享 相同 的 程序 
变量 。 然 而 ， 这 种 共享 也 是 很 棘手 的 。 为 了 编写 正确 的 线程 化 程序 ， 我 们 必须 对 所 谓 的 共享 以 及 
它 是 如 何 工作 的 有 很 清楚 的 了 解 。 

为 了 理解 C 程序 中 的 一 个 变量 是 否 是 共享 的 ， 有 一 些 基 本 的 问题 要 解答 : 1) 线程 的 基础 存 
储 器 模型 是 什么 ? 2) 根据 这 个 模型 ， 变 量 实例 是 如 何 映射 到 存储 器 的 ? 3) 最 后 ， 有 多 少 线程 
引用 这 些 实例 ? 一 个 变量 是 共享 的 ， 当 且 仅 当 多 个 线程 引用 这 个 变量 的 某 个 实例 。 

为 了 让 我 们 对 共享 的 讨论 具体 化 ， 我 们 将 使 用 图 12-15 中 的 程序 作为 一 个 运行 示例 。 尽 管 有 
些 人 为 的 痕迹 ， 但 是 它 仍然 值得 研究 ， 因 为 它 说 明了 关于 共享 的 许多 细微 之 处 。 示 例 程序 由 一 个 
创建 了 两 个 对 等 线程 的 主线 程 组 成 。 主 线程 传递 一 个 唯一 的 ID 给 每 个 对 等 线程 ， 每 个 对 等 线程 
利用 这 个 ID 输出 一 条 个 性 化 的 信息 ， 以 及 调用 该 线程 例 程 的 总 次 数 。 


code/conc/sharing.c 





#include "csapp.h" 
#define N 2 
void *thread(void *vargp); 


char **ptr; /* Global variable */ 


int main() 


图 12-15 说明 共 享 不 同方 面 的 示例 程序 


匣 12 旭 六 发 锋 程 66 


8 1 

9 int i; 

10 | pthread_t tid,; 

11 char *msgs[N] = 1 

12 "Hello from foo", 
13 "Hello from bar" 

14 }; 

15 

16 ptr = msgs; 

17 for (i = 0; i < N; i++) 
18 Pthread_create(&tid, NULL, thread, wo *) 1); 
19 Pthread_exit (NULL); 

20 


22 void *thread(void *vargp) 
23 攻 


24 int myid = (int)vargp; 
25 static int cnt = 0; 
26 printf("[%d]: %s (cnt=%d)\n", myid, ptr[myid], ++cnt); 
27 return NULL ; 
28 3} 
code/conc/sharing.c 
图 12-15 ( 续 ) 


12.4.1 线程 存储 器 模型 

”一 组 并 发 线程 运行 在 一 个 进程 的 上 下 文中 。 每 个 线程 都 有 它 自 己 独立 的 线程 上 下 文 ， 包 括 线 
程 ID、 栈 、 栈 指针 、 程 序 计 数 器 、 条 件 码 和 通用 目的 寄存 器 值 。 每 个 线程 和 其 他 线程 一 起 共享 
进程 上 下 文 的 剩余 部 分 。 这 包括 整个 用 户 虚拟 地 址 空间 ， 它 是 由 只 读 文本 〈 人 代码)、 读 / 写 数据 、 
堆 以 及 所 有 的 共享 库 代 码 和 数据 区 域 组 成 的 。 线 程 也 共享 同样 的 打开 文件 的 集合 。 

从 实际 操作 的 角度 来 说 ， 让 一 个 线程 去 读 或 号 另 一 个 线程 的 寄存 器 值 是 不 可 能 的 。 另 一 方 
面 ， 任 何 线程 都 可 以 访问 共享 虚拟 存储 器 的 任意 位 置 。 如 果 某 个 线程 修改 了 一 个 存储 器 位 置 ， 那 
PS 因此 ， 寄 存 器 是 从 不 共享 的 ， 而 虚拟 
存储 器 总 是 共享 的 。 

各 自 独立 的 线程 术 的 存储 器 模型 不 是 那么 整齐 清楚 的 。 这 些 栈 被 保存 在 虚拟 地 址 空间 的 栈 区 
域 中 ， 并 且 通 常 是 被 相应 的 线程 独立 地 访问 的 。 我 们 说 通常 而 不 是 总 是 ， 是 因为 不 同 的 线程 栈 是 
不 对 其 他 线程 设防 的 。 所 以 ， 如 果 一 个 线程 以 某 种 方式 得 到 一 个 指向 其 他 线程 栈 的 指针 ， 那 么 它 
就 可 以 读 写 这 个 栈 的 任何 部 分 。 我 们 的 示例 程序 在 第 26 行 展 示 了 这 一 点 ， 其 中 对 等 线程 直接 通 
过 全 局 变量 ptr 间接 引用 主线 程 的 栈 的 内 容 。 

12.4.2 ”将 变量 映射 到 存储 器 

线程 化 的 C 程序 中 变量 根据 它们 的 存储 类 型 被 映射 到 虚拟 存储 器 : 

。 全 局 变量 。 全 局 变量 是 定义 在 函数 之 外 的 变量 。 在 运行 时 ， 虚 拟 存储 器 的 读 / 写 区 域 具 包 
含 每 个 全 局 变量 的 一 个 实例 ， 任 何 线程 都 可 以 引用 。 例 如 ， 第 5 行 声 明 的 全 局 变量 ptr 在 
虚拟 存储 器 的 读 / 写 区 域 中 有 一 个 运行 时 实例 。 当 一 个 变量 只 有 一 个 实例 时 ， 我 们 只 用 变 

量 名 〈 在 这 里 就 是 Ptz) 来 表示 这 个 实例 。 

“本 地 自动 变量 。 本 地 自动 变量 就 是 定义 在 函数 内 部 但 是 没有 static 属性 的 变量 。 在 运行 
时 ， 每 个 线程 的 栈 都 包含 它 自己 的 所 有 本 地 上 自动 变量 的 实例 。 即 使 当 多 个 线程 执行 同一 个 
线程 例 程 时 也 是 如 此 。 例 如 ， 有 一 个 本 地 变量 tid 的 实例 ， 它 保存 在 主线 程 的 栈 中 。 我 们 
用 tid.m 来 表示 这 个 实例 。 再 来 看 一 个 例子 ， 本 地 变量 myid 有 两 个 实例 ， 一 个 在 对 等 
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线程 0 的 栈 内 ， 另 一 个 在 对 等 线程 1 的 栈 内 。 我 们 将 这 两 个 实例 分 别 表示 为 myid.p0 和 
myid.pl。 
“本 地 静态 变量 。 本 地 静态 变量 是 定义 在 函数 内 部 并 有 static 属性 的 变量 。 和 全 局 变量 一 
样 ， 虚 拟 存储 器 的 读 / 写 区 域 只 包含 在 程序 中 声明 的 每 个 本 地 静态 变量 的 一 个 实例 。 例 如 ， 
即使 示例 程序 中 的 每 个 对 等 线程 都 在 第 25 行 声 明了 cnt， 在 运行 时 ， 虚 拟 存储 器 的 读 / 写 
区 域 中 也 只 有 一 个 cnt 的 实例 。 每 个 对 等 线程 都 读 和 写 这 个 实例 。 
12.4.3 ”共享 变量 
我 们 说 一 个 变量 v 是 共享 的 ， 当 且 仅 当 它 的 一 个 实例 被 一 个 以 上 的 线程 引用 。 例 如 ， 示 例 程 
序 中 的 变量 cnt 就 是 共享 的 ， 因 为 它 只 有 一 个 运行 时 实例 ， 并 且 这 个 实例 被 两 个 对 等 线程 引用 。 
在 另 一 方面 ，myid 不 是 共享 的 ， 因 为 它 的 两 个 实例 中 每 一 个 都 只 被 一 个 线程 引用 。 然 而 ， 认 识 
到 像 msgs 这 样 的 本 地 目 动 变量 也 能 被 共享 是 很 重要 的 。 
SN 练习 题 12.6 A. 利 用 12.4 节 中 的 分 析 ， 为 图 12-15 中 的 示例 程序 在 下 表 的 每 个 条 目 中 填写 “是 ”或 
者 “ 否 ”。 在 第 一 列 中 ， 符 号 vt 表示 变量 v 的 一 个 实例 ， 它 驻 留 在 线程 1 的 本 地 栈 中 ， 其 中 1 要 么 是 m 
(主线 程 )， 要 么 是 p0〔《 对 等 线程 0) 或 者 pl1 (对 等 线程 1)。 








B. 根据 A 部 分 的 分 析 ， 变 量 ptr、cnt、i、msgs 和 myid 哪些 是 共享 的 ? 


12.5 ”用 信和 号 量 同步 线程 

共享 变量 是 十 分 方便 的 ， 但 是 它们 也 引信 了 同步 错误 (synchronization error) 的 可 能 性 。 考 
虑 图 12-16 中 的 程序 badcnt .c， 它 创建 了 两 个 线程 ， 每 个 线程 都 对 共享 计数 变量 cnt 加 1。 因 
为 每 个 线程 都 对 计数 器 增加 了 niters 次 ， 我 们 预计 它 的 最 终 值 是 2Xniters。 这 看 上 去 简单 而 直 
接 。 然 而 ， 当 在 Linux 系统 上 运行 badcnt .c 时 ， 我 们 不 仅 得 到 错误 的 答案 ， 而 且 每 次 得 到 的 
答案 都 还 不 相同 ! 

code/conc/badcnit.c 
#include "csapp.h" 


void *thread(void *vargp); /* Thread routine prototype */ 


1 

2 

3 

4 

5  /* Global shared variable */ 

6 volatile int cnt = 0; /* Counter */ 
7 
8 


int main(int argc, char **argv) 


2 

10 int niters; 

11 pthread_t tid1，tid2; 

i 

13 /* Check input argument */ 
14 if (argc != 2) { 


图 12-16 badcnt.c : 一 个 同步 不 正确 的 计数 器 程序 
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15 Printf("usage: %s <niters>\n", argv[0]); 
16 exit (0); 
17 站 
18 niters = atoi(argv[1]); 
19 
20 /* Create threads and wait for them to finish */ 
21 Pthread_create(&tidil, NULL, thread, &niters); 
22 Pthread_create(&tid2, NULL, thread, &niters); 
23 Pthread_join(tidi, NULL); 
24 Pthread_join(tid2，NULL) ; 
. 25 
26 /*+ Check result */ 
27 if (cnt != (2 * niters)) 
28 printf("BOOM! cnt=%d\n", cnt); 
29 else 
30 printf ("OK cnt=%d\n", cnt); 
31 exit (0); 
32 
33 


34 /* Thread routine */ 
35 void *thread(void *vargp) 


36 攻 

37 int i, niters = *((int *)Vargp) ; 
38 

39 for (i = 0; i < niters; i++) 

40 CD 七 十 十 ; 

41 

42 return NULL ; 

43 


code/conc/badcnt.c 
图 12-16 ( 续 ) 


linux> ./badcnt 1000000 
BOOM! cnt=1445085 


linux> ./badcnt 1000000 
BOOM! cnt=1915220 


linux> ./badcnt 1000000 
BOOM! cnt=1404746 


那么 哪里 出 错 了 呢 ? 为 了 清晰 地 理解 这 个 问题 ， 我 们 需要 研究 计数 器 循环 (第 39 一 40 行 ) 
的 汇编 代码 ， 如 图 12-17 所 示 。 我 们 发 现 ， 将 线程 i 的 循环 代码 分 解 成 五 个 部 分 是 很 有 帮助 的 : 

“万 : 在 循环 头 部 的 指令 块 。 

“ 石 : 加 载 共享 变量 cnt 到 寄存 器 $eax, 的 指令 ， 这 里 $eax; 表示 线程 i 中 的 寄存 器 seax 的 值 。 

。U, : 更 新 〈 增 加 ) $eax; 的 指令 。 

“9 : 将 $eax; 的 更 新 值 存 回 到 共享 变量 cnt 的 指令 。 

“也 : 循环 尾部 的 指令 块 。 

注意 头 和 尾 只 操作 本 地 栈 变量 ， 而 L,、U, 和 操作 共享 计数 器 变量 的 内 容 。 

当 badcnt .c 中 的 两 个 对 等 线程 在 一 个 单 处 理 器 上 并 发 运行 时 ， 机 器 指令 以 某 种 顺序 一 个 
接 一 个 地 完成 。 因 此 ， 每 个 并 发 执行 定义 了 两 个 线程 中 的 指令 的 某 种 全 序 (或 者 交 又 )。 不 幸 的 
是 ， 这 些 顺序 中 的 一 些 将 会 产生 正确 结果 ， 但 是 其 他 的 则 不 会 。 
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线程 i 的 汇编 C 代码 
movl] (%rdi) ,%ecx 
HH;: 尖 
, ee L;: Load cnt 
nov} Gnt Crip) ,hoax|  : Update cnt 
movl heax,cnt (Xrip)|) Si: Store cnt 
incl] Whedx 
cmp1 %ecx,hedx T: Tail 


ji .Lil 





图 12-17 badcnt.c 中 计数 器 循环 (第 39 ~ 40 行 ) 的 汇编 代码 


这 里 有 个 关键 点 : 一 般 而 言 ， 你 没有 办 法 预测 操作 系统 是 否 将 为 你 的 线程 选择 一 个 正确 的 顺 
序 。 例如， 图 12-18a 展示 了 一 个 正确 的 指令 顺序 的 分 步 操作 。 在 每 个 线程 更 新 了 共享 变量 cnt 
之 后 ， 它 在 存储 器 中 的 值 就 是 2， 这 正 是 期 望 的 值 。 男 一 方面 ， 图 12-18b 的 顺序 产生 一 个 不 正 
确 的 cnt 的 值 。 会 发 生 这 样 的 问题 是 因为 ， 线 程 2 在 第 5 步 加 载 cnt， 是 在 第 2 步 线 程 1 加载 
cnt 之 后 ， 而 在 第 6 步 线 程 1 存储 它 的 更 新 值 之 前 。 因 此 ， 每 个 线程 最 终 都 会 存储 一 个 值 为 1 
的 更 新 后 的 计数 器 值 。 我 们 能 够 借助 于 一 种 叫做 进度 图 (progress graph) 的 方法 来 阐明 这 些 正确 
的 和 不 正确 的 指令 顺序 的 概念 ， 这 个 图 我 们 将 在 下 一 节 中 介绍 。 


步骤 ”线程 指令 %eax! Xeax> cnt 步骤 ”线程 指令 %eax: %eax， cnt 


OO 
©O 


一 一 一 一 一 串口 串口 





O00 OD 
这 fiibiiP 一 王 一 二 
忆 Di 记 己 一 一 一 呈 口 品 
OO OO 人 OD- 
和 Di 一 一 记忆 天 一 一 


[EN 


a) 正确 的 顺序 b) 不 正确 的 顺序 
图 12-18 badcnt .c 中 第 一 次 循环 迭代 的 指令 顺序 





这 种 顺序 会 产生 一 个 正确 的 cnt 值 吗 ? 
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12.5.1 进度 图 

进度 图 (progress graph) 将 nn 个 并 发 线程 的 执行 模型 化 为 一 条 ， 维 全 卡 儿 和 s 间 中 的 轨迹 

线 。 si 每 个 点 《1， 

有 ，…，L) 代表 线程 (f=1，…，n) 已 经 完成 ”线程 ? 

二 指令 这 一 状态 ,图 的 原点 对 应 于 没有 任何 线 
程 完成 一 条 指令 的 初始 状态 。 

图 12-19 展示 了 badcnt. c 程序 第 一 次 循环 
迭代 的 二 维 进 度 图 。 水 平 轴 对 应 于 线程 1， 垂直 
轴 对 应 于 线程 2。 点 (LI,，S,) 对 应 于 线程 1 完成 
了 工 而 线程 2 完成 了 5, 的 状态 。 

进度 图 将 指令 执行 模型 化 为 从 一 种 状态 到 另 
一 种 状态 的 转换 (transition)。 转 换 被 表示 为 一 
条 从 一 点 到 相 邻 点 的 有 向 边 。 合 法 的 转换 是 向 右 
(线程 1 中 的 一 条 指令 完成 ) 或 者 向 上 (线程 2 中 mm th UU 5 7 
的 一 条 指令 完成 ) 的 。 两 条 指令 不 能 在 同一 时 刻 ”图 12-19 badcnt .c 第 一 次 循环 迭代 的 进度 图 





线程 1 





向 运行 ， 所 以 向 下 或 者 向 左 移动 的 转换 也 是 不 合法 的 。 

一 个 程序 的 执行 历史 被 模型 化 为 状态 空间 中 的 一 条 轨迹 线 。 图 12-20 展示 了 下 面 指令 顺序 对 
应 的 轨迹 线 : 

人 

对 于 线程 i， 操作 共享 变量 cnt 内 容 的 指令 
(L,，U;，5,) 构成 了 一 个 (关于 共享 变量 cnt 的 ) 
临界 区 (critical section)， 这 个 临界 区 不 应 该 和 其 
他 进程 的 临界 区 交 蔡 执行 。 换 句 话 说， 我 们 想 要 
确保 每 个 线程 在 执行 它 的 临界 区 中 的 指令 时 ， 拥 
有 对 共享 变量 的 互 斥 的 访问 (mutually exclusive 
access)。 通 常 这 种 现象 称 为 互 斥 《mutual exclusion )。 

在 进度 图 中 ， 两 个 临界 区 的 交集 形成 的 状态 
空间 区 域 称 为 不 安全 区 (unsafe region)。 图 12-21 





ee 的 不 安全 区 。 注 意 ， 不 安全 区 和 | 


1 状态 站 和 ($S， U,〉 紫 邻 不 安全 区 ， 
但 是 它们 并 不 是 不 安全 区 的 一 部 分 。 绕 开 不 安全 区 的 轨迹 线 叫做 安全 轨迹 线 (safe trajectory)。 
相反 ， 接 触 到 任何 不 安全 区 的 轨迹 线 就 叫做 不 安全 轨迹 线 (unsafe trajectory)。 图 12-21 给 出 了 
我 们 的 示例 程序 badcnt .c 的 状态 空间 中 的 安全 和 不 安全 轨迹 线 。 上 而 的 轨迹 线 绕 开 了 不 安全 
区 域 的 左边 和 上 边 ， 所 以 是 安全 的 。 下 面 的 轨迹 线 穿越 不 安全 区 ， 因 此 是 不 安全 的 。 

任何 安全 轨迹 线 都 将 正确 地 更 新 共享 计数 器 。 为 了 保证 线程 化 程序 示例 的 正确 执行 (实际 上 
任何 共享 全 局 数据 结构 的 并 发 程序 的 正确 执行 ) 我 们 必须 以 某 种 方式 同步 线程 ， 使 它们 总 是 有 一 
条 安全 轨迹 线 。 一 个 经 典 的 方法 是 基于 信和 号 量 的 思想 ， 接 下 来 我 们 就 介绍 它 
茎 弹 练习 题 12.8 ”使 用 图 12-21 中 的 进度 图 ， 将 下 列 轨迹 线 划分 为 安全 的 或 者 不 安全 的 。 

A. Hi, Li, Ui, $1 Ey, L2, 9 TD Ty 

B. by, Ly, Hi, La, Ui, $1, Ti, Us, $2, TD 

C. Hi, bo, Ly, Us, Sy, Li, Ui, $1, Ti, TD 
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12.5.2 信号 量 
Edsger Dijkstra， 并 发 编程 领域 的 先锋 人 物 ， 提 出 了 一 种 经 典 的 解决 同步 不 同 执行 线程 问题 
的 方法 ， 这 种 方法 是 基于 一 种 叫做 信 
号 量 (semaphore) 的 特殊 类 型 变量 
的 。 信 号 量 s 是 具有 非 负 整数 值 的 全 
局 变量 ， 只 能 由 两 种 特殊 的 操作 来 处 
理 ， 这 两 种 操作 称 为 P 和 VV: 
*P(s) : 如 果 s 是非 零 的 ， 那 么 P 
将 8 减 1， 并 且 立 即 返回 。 如 果 ”和 写 cnt 的 
s 为 零 ， 那 么 就 挂 起 这 个 线程 ， 临界 区 
直到 s 变 为 非 零 ， 而 一 个 VV 操 z 
作 会 重启 这 个 线程 。 在 重启 之 
后 ,， PP 操作 将 s 减 1， 并 将 控制 





返回 给 调用 者 。 

。Vls) :操作 将 s 加 1。 如 果 有 写 cnt 的 临界 区 

任何 线程 阻塞 在 PP 操作 等 待 s 图 12-21 安全 和 不 安全 轨迹 线 。 临 界 区 的 交集 形成 
变 成 非 零 ， 那 么 VV 操作 会 重启 ”了 不 安全 区 。 绕 开 不 安全 区 的 轨迹 线 能 够 
这 些 线程 中 的 一 个 ， 然 后 该 线 正确 更 新 计数 器 变量 


程 将 s 减 1， 完 成 它 的 尸 操作 。 

P 中 的 测试 和 减 1 操作 是 不 可 分 割 的 ， 也 就 是 说 ， 一 旦 预测 信号 量 s 变 为 非 零 ， 就 会 将 s 减 
1， 不 能 有 中 断 。 玫 中 的 加 1 操作 也 是 不 可 分 割 的 ， 也 就 是 加 载 、 加 1 和 存储 信和 号 量 的 过 程 中 没 
有 有 中断。 注意， 三 的 定义 中 没有 和 定义 等 待 线程 被 重新 启动 的 顺序 。 唯 一 的 要 求 是 矿 必 须 只 能 重启 
一 个 正在 等 待 的 线程 。 因 此 ， 当 有 多 个 线程 在 等 待 同一 个 信号 量 时 ， 你 不 能 预测 矿 操作 要 重启 
哪 一 个 线程 。 | 

P 和 矿 的 定义 确保 了 一 个 正在 运行 的 程序 绝 不 可 能 进入 这 样 一 种 状态 ， 也 就 是 一 个 正确 初始 
化 了 的 信号 量 有 一 个 负 值 。 这 个 属性 称 为 信号 量 不 变性 (semaphore invariant)， 为 控制 并 发 程序 
的 轨迹 线 提供 了 强 有 力 的 工具 ， 在 下 一 节 中 我 们 将 看 到 。 

Posix 标准 定义 了 许多 操作 信号 量 的 函数 。 


#include <semaphore.h> 


int sem_init(sem.t *sem, 0, unsigned int value); 
int sem_wait(sem_t *s); /* P(S) */ 
int sem_post(sem_t *s); /* V(s) */ 


返回 : 车 成 功 则 为 0， 若 出 错 则 为 一 1。 


sem_init 函数 将 信号 量 sem 初始 化 为 value。 每 个 信和 号 量 在 使 用 前 必须 初始 化 。 针 对 我 
们 的 目的 ， 中 间 的 参数 总 是 零 。 程 序 分 别 通过 调用 sem_wait 和 sem_post 函数 来 执行 P 和 V 
操作 。 为 了 简明 ， 我 们 更 喜欢 使 用 下 面 这 些 等 价 的 已 和 上 三 的 包装 函数 : 





#include "csapp.h" 


void Pl(sem t *s); /+ Wrapper function for sem_wait */ 


void V(sem_t *s); /* Wrapper function for sem_post */ 





荔 12 复 六 发 及 得 669 


名 字 P 和 VV 的 起 源 
Edsger Dijkstra (1930 一 2002) 出 生 于 荷兰 。 名 字 忆 和 下 来 源 于 荷兰 语 单词 Proberen〔( 测 试 ) 
和 JErjpogen (增加 )。 


12.5.3 ”使 用 信号 量 来 实现 互 斥 

信和 号 量 提 供 了 一 种 很 方便 的 方法 来 确保 对 共享 变量 的 互 斥 访问 。 基 本 思想 是 将 每 个 共享 变量 
(或 者 一 组 相关 的 共享 变量 ) 与 一 个 信和 号 量 s (初始 为 1) 联系 起 来 ， 然 后 用 Pls) 和 Vls) 操作 将 
相应 的 临界 区 包围 起 来 。 

以 这 种 方式 来 保护 共享 变量 的 信号 量 叫做 二 元 信号 量 (binary semaphore)， 因 为 它 的 值 总 是 
0 或 者 1。 以 提供 互 斥 为 目的 的 二 元 信号 量 常 党 也 称 为 互 斥 锁 〈mutex)。 在 一 个 互 斥 锁 上 执行 己 
操作 称 为 对 互 斥 锁 加 锁 。 类 似 地 ， 执 行 了 操作 称 为 对 互 斥 锁 解 锁 。 对 一 个 互 斥 锁 加 了 锁 但 是 还 没 
有 解锁 的 线程 称 为 占用 这 个 互 斥 锁 。 一 个 被 用 作 一 组 可 用 资源 的 计数 器 的 信号 量 称 为 计数 信号 量 。 

图 12-22 中 的 进度 图 展示 了 我 们 如 何 利用 二 元 信和 号 量 来 正确 地 同步 我 们 的 计数 器 程序 示例 。 
每 个 状态 都 标 出 了 该 状态 中 信号 量 * 的 值 。 关 键 思想 是 这 种 P 和 矿 操作 的 结合 创建 了 一 组 状态 ， 
叫做 禁止 区 (forbidden region)， 其 中 s<0。 因 为 信号 量 的 不 变性 ， 没 有 实际 可 行 的 轨迹 线 能 够 包 
含 禁 止 区 中 的 状态 。 而 且 ， 因 为 禁止 区 完全 包括 了 不 安全 区 ， 所 以 没有 实际 可 行 的 轨迹 线 能 够 接 
触 不 安全 区 的 任何 部 分 。 因 此 ， 每 条 实际 可 行 的 轨迹 线 都 是 安全 的 ， 而 且 不 管 运行 时 指令 顺序 是 
怎样 的 ， 程 序 都 会 正确 地 增加 计数 器 的 值 。 


线程 2 





线程 1 


H! Ps 1L Ui 31 Vs) nn 


图 12-22 使 用 信号 量 来 互 斥 。s < 0 的 不 可 行 状态 定义 了 一 个 禁止 区 ， 有 
区 ， 阻 止 了 实际 可 行 的 轨迹 线 接 触 到 不 安全 区 


从 可 操作 的 意义 上 来 说 ， 由 P 卫 和 矿 操 作 创 建 的 禁止 区 使 得 在 任何 时 间 点 上 ， 在 被 包围 的 临 
界 区 中 ， 不 可 能 有 多 个 线程 在 执行 指令 。 换 名 话说 ， 信 和 号 量 操作 确保 了 对 临界 区 的 互 斥 访问 。 
总 的 来 说 ， 为 了 用 信号 量 正确 同步 图 12-16 中 的 计数 器 程序 示例 ， 我 们 首先 声明 一 个 信号 量 


mutex: 


volatile int cnt = 0; /* Counter */ 
sem_t mutex; /* Semaphore that protects counter */ 


670 莫 三 部 分 在 序 间 的 交互 和 通俗 


然后 在 主 例 程 中 将 mutex 初始 化 为 1 : 
Sem_init(&mutex, 0, 1); /x*x mutex = 1 */ 


最 后 ， 我 们 通过 在 线程 例 程 中 对 共享 变量 crit 的 更 新 包围 已 和 天 操作 ， 从 而 保护 了 它们 : 


for (i = 0; i < niters; i++) { 
P(&mutex) ; 
cnt++; 
V(&mutex) ; 

} 


当 我 们 运行 正确 同步 了 的 程序 时 ， 现 在 它 每 次 都 能 产生 正确 的 结果 了 。 


linux> ./goodcnt 1000000 
OK cnt=2000000 


linux> ./goodcnt 1000000 
OK cnt=2000000 


进度 图 的 局 限 性 

进度 图 给 了 我 们 一 种 较 好 的 方法 ， 将 在 单 处 理 器 上 的 并 发 程序 执行 可 视 化 ， 也 帮助 我 们 理 
解 为 什么 需要 同步 。 然 而 ， 它 们 确实 也 有 局 限 性 ， 特 别 是 对 于 在 多 处 理 器 上 的 并 发 执行 ， 在 多 
处 理 器 上 一 组 CPU/ 高 速 缓存 对 共享 同一 个 主 存 。 多 处 理 器 的 工作 方式 是 进度 图 不 能 解释 的 。 
特别 是 ， 一 个 多 处 理 器 存储 系统 可 以 处 于 一 种 状态 ， 不 对 应 于 进度 图 中 任何 轨迹 线 。 不 管 如 
何 ， 结 论 总 是 一 样 的 : 无 论 是 在 单 处 理 器 还 是 多 处 理 器 上 运行 程序 ， 郁 要 同步 你 对 共享 变量 的 
访问 。 


12.5.4 ”利用 信号 量 来 调度 共享 资源 

除了 提供 互 斥 之 外 ， 信 号 量 的 另 一 个 重要 作用 是 调度 对 共享 资源 的 访问 。 在 这 种 场景 中 ， 一 
个 线程 用 信号 量 操作 来 通知 另 一 个 线程 ， 程 序 状 态 中 的 某 个 条 件 已 经 为 真 了 。 两 个 经 典 而 有 用 的 
例子 是 生产 者 一 消费 者 和 读者 一 写 者 问题 。 
” ”1. 生产 者 一 消费 者 问题 和 

图 12-23 给 出 了 生产 者 一 消费 者 问题 。 生 产 者 和 消费 者 线程 共享 一 个 有 7 个 楼 的 有 限 缓冲 
区 。 生 产 者 线程 反复 地 生成 新 的 项 目 (item)， 并 把 它们 插入 到 缓冲 区 中 。 消 费 者 线程 不 断 地 
从 缓冲 区 中 取出 这 些 项 目 ， 然 后 消费 (使 用 ) 它们 。 也 可 能 有 多 个 生产 者 和 消费 者 的 变种 。 


生产 者 线程 有 限 的 缓冲 区 消费 者 线程 


图 12-23 生产 者 一 消费 者 问题 。 生 产 者 产生 项 目 并 把 它们 插入 到 一 个 有 限 的 缓冲 区 中 。 消 费 者 从 组 
冲 区 中 取出 这 些 项 目 ， 然 后 消费 它们 


因为 插入 和 取出 项 目 都 涉及 更 新 共享 变量 ， 所 以 我 们 必须 保证 对 缓冲 区 的 访问 是 互 斥 的 。 但 
是 只 保证 互 斥 访问 是 不 够 的 ， 我 们 还 需要 调度 对 缓冲 区 的 访问 。 如 果 缓 冲 区 是 满 的 〈 没 有 空 的 本 
位 )， 那 么 生产 者 必须 等 待 直到 有 一 个 槽 位 变 为 可 用 。 与 之 相似 ， 如 果 缓 冲 区 是 空 的 〈 没 有 可 取 
用 的 项 目 )， 那 么 消费 者 必须 等 待 直 到 有 一 个 项 目 变 为 可 用 。 

生产 者 一 消费 者 的 相互 作用 在 现实 系统 中 是 很 普遍 的 。 例 如 ， 在 一 个 多 媒体 系统 中 ， 生 
产 者 编码 视频 帧 ， 而 消费 者 解码 并 在 屏幕 上 呈现 出 来 。 缓 冲 区 的 目的 是 为 了 减少 视频 流 的 抖动 
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(jitter)， 而 这 种 抖动 是 由 各 个 帧 的 编码 和 解码 时 与 数据 相关 的 差异 引起 的 。 缓 冲 区 为 生产 者 提供 
了 一 个 槽 位 池 ， 而 为 消费 者 提供 一 个 已 编码 的 帧 池 。 另 一 个 常见 的 示例 是 图 形 用 户 接口 设计 。 生 
产 者 检测 到 鼠标 和 键盘 事件 ， 并 将 它们 插入 到 缓冲 区 中 。 消 费 者 以 某 种 基于 优先 级 的 方式 从 绥 冲 
区 取出 这 些 事件 ， 并 显示 在 屏幕 上 。 

在 本 节 中 ， 我 们 将 开发 一 个 简单 的 包 ， 叫 做 SBUF， 用 来 构造 生产 者 一 消费 者 程序 。 在 下 
一 节 里 ， 我 们 会 看 到 如 何 用 它 来 构造 一 个 基于 预 线程 化 〈prethreading) 的 有 趣 的 并 发 服务 器 。 
SBUF 操作 类 型 为 sbuf t 的 有 限 缓 冲 区 〈 见 图 12-24)。 项 目 存放 在 一 个 动态 分 配 的 ”项 整数 数 
组 (buf) 中 。front 和 rear 索引 值 记录 该 数组 中 的 第 一 项 和 最 后 一 项 。 三 个 信号 量 同 步 对 组 
冲 区 的 访问 。mutex 信号 量 提供 互 斥 的 缓冲 区 访问 。slots 和 items 信号 量 分 别 记录 空 槽 位 和 
可 用 项 目的 数量 。 


code/conc/sbufh 

1 typedef struct + 
2 int *buf; /* Buffer array */ 
3 int n; /*¥ Maximum number of slots */ 
4 int front ; /* buf GEront+1)pn is first item */ 
5 int rear; /* buflrear%n] is last item */ 
6 Sem._ 七 mutex ; /* Protects accesses to buf */ 
7 sem_t slots; /* Counts available slots */ 
8 sem_t items; /* Counts available items */ 
9 } sbuf_t; 

一 code/conc/sbuf.h 


12-24 sbuf t ; SBUF 包 使 用 的 有 限 缓冲 区 


图 12-25 给 出 了 SBUF 函数 的 实现 。sbuf_init 函数 为 缓冲 区 分 配 堆 存 储 器 ， 设 置 front 
和 rear 表示 一 个 空 的 缓冲 区 ， 并 为 三 个 信号 量 赋 初 始 值 。 这 个 函数 在 调用 其 他 三 个 函数 中 的 任 
何 一 个 之 前 调用 一 次 。sbuf_qeinit 函数 是 当 应 用 程序 使 用 完 缓冲 区 时 ， 释 放 缓 冲 区 存储 的 。 
sbuf_insert 函数 等 待 一 个 可 用 的 槽 位 ， 对 互 斥 锁 加 锁 ， 添 加 项 目 ， 对 互 斥 锁 解 锁 ， 然 后 宣布 
有 一 个 新 项 目 可 用 。sbuf remove 函数 是 与 sbuf_insert 函数 对 称 的 。 在 等 待 一 个 可 用 的 组 
冲 区 项 目 之 后 ， 对 互 斥 锁 加 锁 ， 从 缓冲 区 的 前 面 取出 该 项 目 ， 对 互 斥 锁 解 锁 ， 然 后 发 信号 通知 一 
个 新 的 槽 位 可 供 使 用 。 : 


code/conc/sbufc 
1 #include "csapp.h" 
2  #include "sbuf.h" 
3 | 
4 /* Create an empty, bounded, shared FIFD buffer with n slots */ 
5 void sbuf_init(sbuf_t *sp, int n) 
6 二 
7 sp->buf = Calloc(n, sizeof (int)); 
8 sp->n = 卫 ; /* Buffer holds max of n items */ 
9 sp->front = sp->rear = 0; /* Empty buffer iff front == rear */ 
10 Sem_init(&sp->mutex, 0, 1); /x Binary semaphore for locking */ 
们 Sem_init(&sp->slots, 0, n); /* lnitially, buf has n empty silots */ 
12 Sem_init(&sp->items, 0, 0); . /* Tnitially, buf has zero data items */ 
13 : 


15  /* Clean up buffer sp */ 


图 12-25 SBUF : 同步 对 有 限 缓冲 区 并 发 访问 的 包 
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16 void sbuf_deinit(sbuf_t *sp) 


122 二 

18 Free(Csp->buf ) ; 
19 + 

20 


21 /* Insert item onto the rear of shared buffer SP */ 
22 void sbuf_insert(sbuf_t *sp, int item) 


233 二 

24 P(g&sp->slots); /* Wait for available slot */ 
25 Pl(&sp->mutex); /*¥ Lock the buffer */ 

26 sp->buf [(++sp->rear)%(sp->n)] = item; /x* Insert the item */ 

27 V(&sp->mutex); /* Unlock the buffer */ 

28 V(&sp->items); /+ Announce available item */ 
29 

30 

31 /¥ Remove and return the first item from buffer sp */ 

32 int sbuf_remove(sbuf_t *sp) 

33 二 

34 int item; 

35 P(&sp->items) ; /* Wait for available item */ 
36 P(&sp->mutex) ; /* Lock the buffer */ 

37 item = sp->buf [(++sp->front)%(sp->n)]; /* Remove the item */ 

38 V(C&sp->mutex) ; /* Unlock the buffer */ 

39 V(&sp->slots); /* Announce.available slot +*/ 
40 return itenm; 

41 } 


code/conc/sbufc 
| 图 12-25 ( 续 ) 
练习 题 12.9 设 p 表示 生产 者 数量 ，c 表示 消费 者 数量 ， 而 n 表示 以 项 目 单元 为 单位 的 缓冲 区 大 小 。 
对 于 下 面 的 每 个 场景 ， 指 出 sbuf insert 和 sbuf remove 中 的 互 斤 锁 信号 量 是 否 是 必需 的 。 


A. p=1,c=1,n>1 
B. p=1,c=1,n=1 
CG Hl csbil1 


2. 读者 - 写 者 问题 

读者 一 写 者 问题 是 互 斥 问题 的 一 个 概括 。 一 组 并 发 的 线程 要 访问 一 个 共享 对 象 ， 例 如 一 个 
主 存 中 的 数据 结构 ， 或 者 一 个 磁盘 上 的 数据 库 。 有 些 线程 只 读 对 象 ， 而 其 他 的 线程 只 修改 对 象 。 
修改 对 象 的 线程 叫做 写 者 。 只 读 对 象 的 线程 叫做 读者 。 写 者 必须 拥有 对 对 象 的 独占 的 访问 ， 而 读 
者 可 以 和 无 限 多 个 其 他 的 读者 共享 对 象 。 一 般 来 说 ， 有 无 限 多 个 并 发 的 读者 和 写 者 。 

读者 一 写 者 交互 在 现实 系统 中 很 常见 。 例 如 ， 一 个 在 线 航空 预定 系统 中 ， 人 允许 有 无 限 多 个 
客户 同时 查看 座位 分 配 ， 但 是 正在 预订 座位 的 客户 必须 拥有 对 数据 库 的 独占 的 访问 。 再 来 看 另外 
一 个 例子 ， 在 一 个 多 线程 缓存 Web 代理 中 ， 无 限 多 个 线程 可 以 从 共享 页 面 缓存 中 取出 已 有 的 页 
面 ， 但 是 任何 向 缓存 中 写 人 一 个 新 页 面 的 线程 必须 拥有 独占 的 访问 。 

读者 一 写 者 问题 有 几 个 变种 ， 每 个 都 是 基于 读者 和 写 者 的 优先 级 的 。 第 一 类 读者 一 写 者 问 
题 ， 读 者 优先 ， 要 求 不 要 让 读者 等 待 ， 除 非 已 经 把 使 用 对 象 的 权限 赋予 了 一 个 写 者 。 换 名 话说 ， 
读者 不 会 因为 有 一 个 写 者 在 等 待 而 等 待 。 第 二 类 读者 一 写 者 问题 ， 写 者 优先 ， 要 求 一 旦 一 个 写 
者 准备 好 可 以 写 ， 它 就 会 尽 可 能 快 地 完成 它 的 写 操作 。 同 第 一 类 问题 不 同 ， 在 一 个 写 着 后 到 这 的 
读者 必须 等 待 ， 即 使 这 个 写 者 也 是 在 等 待 。 
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图 12-26 给 出 了 一 个 对 第 一 类 读者 一 写 者 问题 的 解答 。 同 许多 同步 问题 的 解答 一 样 ， 这 个 解 
答 很 微妙 ， 极 具 其 骗 性 地 简单 。 信 和 号 量 w 控制 对 访问 共享 对 象 的 临界 区 的 访问 。 信 号 量 mutex 
保护 对 共享 变量 readcnt 的 访问 ，readcnt 统计 当前 在 临界 区 中 的 读者 数量 。 每 当 一 个 写 者 
进入 临界 区 时 ， 它 对 互 斥 锁 w 加 锁 ， 每 当 它 离开 临界 区 时 ， 对 w 解锁 。 这 就 保证 了 任意 时 刻 临 
界 区 中 最 多 只 有 一 个 写 者 。 另 一 方面 ， 只 有 第 一 个 进入 临界 区 的 读者 对 ww 加 锁 ， 而 只 有 最 后 一 
个 离开 临界 区 的 读者 对 w 解锁 。 当 一 个 读者 进入 和 离开 临界 区 时 ， 如 果 还 有 其 他 读者 在 临界 区 
中 ， 那 么 这 个 读者 会 忽略 互 斥 锁 w。 这 就 意味 着 只 要 还 有 一 个 读者 占用 互 斥 锁 w， 无 限 多 数量 的 
读者 可 以 没有 障碍 地 进入 临界 区 。 s / 

对 这 两 种 读者 一 写 者 问题 的 正确 解答 可 能 导致 饥 馈 (starvation)， 饥 饿 就 是 一 个 线程 无 限期 
地 阻塞 ， 无 法 进展 。 例 如 ， 如 图 12-26 所 示 的 解答 中 ， 如 果 有 读者 不 断 地 到 达 ， 写 者 就 可 能 无 限 
期 地 等 待 。 z 
本 练习 题 12.10 如 图 12-26 所 示 的 对 第 一 类 读者 一 写 者 问题 的 解答 给 予 读者 较 高 的 优先 级 ， 但 是 从 某 

种 意义 上 说 ， 这 种 优先 级 是 很 弱 的 ， 因 为 一 个 离开 临界 区 的 写 者 可 能 重启 一 个 在 等 待 的 写 者 ， 而 不 是 

一 个 在 等 待 的 读者 。 描 述 出 一 个 场景 ， 其 中 这 种 弱 优 先 级 会 导致 一 群 写 者 使 得 一 个 读者 饥饿 。 





/* Global variables */ 
int readcnt; /* Tnitially = 0 */ 
sem_t mutex, Ww; /* Both initially = 1 */ 


void reader (void) void writer(void) 
{ 四 { 
While (1) { | while (1) { 
P(&mutex) ; P (&w); 
readcnt++; 
if (readcnt == 1) /* First in */ /* Critical section */ 
P(&w); /* Writing happens */ 
V(C&mutex) ; 
V(&W) ; 
/* Critical section */ 3} 
/* Reading happens +*/ } 


Pl&mutex); 

readcnt—-; 

if (readcnt == 0) /* Last out */ 
V(&w) ; 

V(&mutex).; 





图 12-26 对 第 一 类 读者 - 写 者 问题 的 解答 。 读 者 优先 级 高 于 写 者 


其 他 同步 机 制 

我 们 已 经 向 你 展示 了 如 何 利 用 信号 量 来 同步 线程 ， 主 要 是 因为 它们 简单 、 经 典 ， 并 且 有 一 个 
清晰 的 语义 模型 。 但 是 你 应 该 知道 还 是 存在 着 其 他 同步 技术 的 。 例 如 ，Java 线程 是 用 一 种 叫做 
Java 监控 器 (Java Monitor) [51] 的 机 制 来 同步 的 ， 它 提供 了 对 信号 量 互 斥 和 调度 能 力 的 更 高 级 
别 的 抽象 ; 实际 上 ， 监 控 器 可 以 用 信号 量 来 实现 。 再 来 看 一 个 例子 ，Pthreads 接口 定义 了 一 组 对 
互 斥 锁 和 条 件 变 量 的 同步 操作 。Pthreads 互 斥 锁 被 用 来 实现 互 斥 。 条 件 变 量 用 来 调度 对 共享 资源 
的 访问 ， 例 如 在 一 个 生产 者 一 消费 者 程序 中 的 有 界 缓 冲 区 。 
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12.5.5 综合 : 基于 预 线程 化 的 并 发 服务 器 

我 们 已 经 知道 了 如 何 使 用 信号 量 来 访问 共享 变量 和 调度 对 共享 资源 的 访问 。 为 了 帮助 人 你 更 清 
晰 地 理解 这 些 思想 ， 让 我 们 把 它们 应 用 到 一 个 基于 称 为 预 线程 化 (prethreading) 技术 的 并 发 服 
务 器 上 。 

在 如 图 12-14 所 示 的 并 发 服务 器 中 ， 我 们 为 每 一 个 新 客户 端 创建 了 一 个 新 线程 。 这 种 方法 的 
缺点 是 我 们 为 每 一 个 新 客户 端 创建 一 个 新 线程 ， 导 致 不 小 的 代价 。 一 个 基于 预 线程 化 的 服务 器 试 
图 通过 使 用 如 图 12-27 所 示 的 生产 者 一 消费 者 模型 来 降低 这 种 开销 。 服 务 器 是 由 一 个 主线 程 和 
一 组 工作 者 线程 构成 的 。 主 线程 不 断 地 接受 来 自 客户 端的 连接 请 求 ， 并 将 得 到 的 连接 描述 符 放 在 
一 个 有 限 缓冲 区 中 。 每 一 个 工作 者 线程 反复 地 从 共享 缓冲 区 中 取出 描述 符 ， 为 客户 端 服务 ， 然 后 
等 待 下 一 个 描述 符 。 





客户 端 
服务 客户 端 | 
图 12-27 ” 预 线程 化 的 并 发 服务 器 的 组 织 结构 。 一 组 现 有 的 线程 不 断 地 取出 和 处 理 来 自 有 限 缓冲 区 的 已 
连接 描述 符 


图 12-28 显示 了 我 们 怎样 用 SBUF 包 来 实现 一 个 预 线程 化 的 并 发 echo 服务 器 。 在 初始 化 了 
缓冲 区 sbuf (第 23 行 ) 后 ， 主 线程 创建 了 一 组 工作 者 线程 (第 26 ~ 27 行 )。 然 后 它 进 入 了 无 
限 的 服务 器 循环 ， 接 受 连接 请 求 ， 并 将 得 到 的 已 连接 描述 符 插 和 人 到 缓冲 区 sbuf 中 。 每 个 工作 者 
线程 的 行为 都 非常 简单 。 它 等 待 直到 它 能 从 缓冲 区 中 取出 一 个 已 连接 描述 符 ( 第 39 行 )， 然 后 调 
用 echo_cnt 函数 回 送 客户 端的 输入 。 


code/conc/echoservert pre.c 


#include "csapp.h" 
#include "sbuf.h" 
#define NTHREADS 4 
#define SBUFSIZE 16 


void echo_cnt (int connfd) ; 
void *thread(void *vargp); 


OJ A NN 一 


9 sbuf_t sbuf; /* Shared buffer of connected descriptors */ 


11 int main(int argc, char **argv) 


12 苹 

13 int i, listenfd, connfd, port; 

14 socklen_t clientlen=sizeof (struct sockaddr_in); 
15 struct sockaddr_in clientaddr; 

16 pthread_t tid; 


图 12-28 一 个 预 线 程 化 的 并 发 echo 服务 器 。 这 个 服务 器 使 用 的 是 有 一 个 生产 者 和 多 个 消费 者 的 生产 
者 - 消费 者 模型 
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18 if (argc != 2) { 

19 fprintf (stderr, "usage: %s <port>\n", argv[0]); 

20 exit (0); 

21 } 

22 port = atoi(argv[1]); 

23 sbuf_init(&sbuf, SBUFSIZE), 

24 listenfd = Open_listenfd(port); 

25 

26 for (i = 0; i < NTHREADS; i++) /* Create worker threads */ 
27 Pthread._create(&tid, NULL, thread, NULL); 

28 ， 

29 While (1) { 

30 connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
31 sbuf_insert(&sbuf, connfd); /* Insert connfd in buffer */ 
32 } 

33 } 

34 

35 void *thread(void *vargp) 

36 攻 

37 Pthread_detach(Pthread_self()) ; 

38 While (1) 攻 

39 int connfd = sbuf_remove(&sbuf); /* Remove connfd from buffer */ 
40 echo_cnt (connfd); /* Service client */ 

41 Close(connfd) ; 

42 } 

43 } 


code/conc/echoservert pre.c 


图 12-28 〈 续 ) 


如 图 12-29 所 示 的 函数 echo_cnt 是 图 11-21 中 的 echo 函数 的 一 个 版 本 ， 它 在 全 局 变量 
byte_cnt 中 记录 了 从 所 有 客户 端 接收 到 的 累计 字 节 数 。 这 是 一 段 值得 研究 的 有 趣 代 码 ， 因 为 
它 向 你 展示 了 一 个 从 线程 例 程 调用 的 初始 化 程序 包 的 一 般 技 术 。 在 这 种 情况 下 ， 我 们 需要 初始 
化 byte_cnt 计数 器 和 mutex 信号 量 。 一 种 方法 是 我 们 为 SBUF 和 RIO 程序 包 使 用 过 的 ， 它 
要 求 主 线程 显 式 地 调用 一 个 初始 化 函数 。 另 外 一 种 方法 ， 在 此 显示 的 ， 是 当 第 一 次 有 某 个 线程 
调用 echo_cnt 函数 时 ， 使 用 pthread_once 函数 〈 第 19 行 ) 去 调用 初始 化 函数 。 这 个 方法 
的 优点 是 它 使 程序 包 的 使 用 更 加 容易 。 这 种 方法 的 缺点 是 每 一 次 调用 echo_cnt 都 会 导致 调用 
pthread_once 函数 ,而 在 很 多 时 候 它 没 有 做 什么 有 用 的 事 。 


code/conc/echo_cnt.c 
#include "csapp.h" 


1 
3 static int byte_cnt; /* Byte counter */ 
4 static Sem_t mutex; /* and the mutex that protects it */ 
2 
6 static void init_echo_cnt (void) 
7 1 x 
8 Sem_init(&mutex, 0, 1); 
9 byte_cnt = 0; 
} 


ht 
-全 


图 12-29 echo_cnt : echo 的 一 个 版 本 ， 它 对 从 客户 端 接收 的 所 有 字 节 计数 
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12 void echo_cnt (int connfd) 


3 4 

14 int 卫 ; 

15 char buf [MAXLINE]; 

16 rio_t rio; 

17 static pthread_once_t once = PTHREAD_ONCE_INIT; 


19 Pthread_once(&once, init_echo_cnt): 


20 Rio_readinitb(&rio, connfd); 
21 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
22 P(&mutex) ; 
23 byte_cnt += 卫 ; 
24 printf("thread %d received %d (%d total) bytes on fd %d\n'", 
25 (int) pthread_self(), n, byte_cnt, connfd); 
26 VCg&muteXx) ; 
27 Rio_writen(connfd, buf, n); 
28 } 
29  } 
code/conc/echo_cnt.c 
图 12-29 ( 续 ) 


一 旦 程序 包 被 初始 化 ，echo_cnt 函数 会 初始 化 RIO 带 缓冲 区 的 IO 包 (第 20 行 )， 然 后 
回 送 从 客户 端 接收 到 的 每 一 个 文本 行 。 注 意 ， 在 第 23 ~ 25 行 中 对 共享 变量 byte_cnt 的 访问 
是 被 已 和 矿 操 作 保护 的 。 


基于 线程 的 事件 驱动 程序 

LO 多 路 复 用 不 是 编写 事件 驱动 程序 的 唯一 方法 。 例 如 ， 你 可 能 已 经 注意 到 我 们 刚才 开发 的 
并 发 的 预 线程 化 的 服务 器 实际 上 是 一 个 事件 驱动 服务 器 ， 带 有 主线 程 和 工作 者 线程 的 简单 状态 
机 。 主 线程 有 两 种 状态 〈“ 等 待 连接 请 求 ” 和 “等 待 可 用 的 缓冲 区 构 位 、 两 个 IO 事件 (“连接 
请 求 到 达 ” 和 “ 丝 冲 区 楷 位 变 为 可 用 ”) 和 两 个 转换 (“接受 连接 请 求 ” 和 “插入 缓冲 区 项 目 ”)。 
类 似 地 ， 每 个 工作 者 线程 有 一 个 状态 (“等 待 可 用 的 给 冲 项 目 ”)、 0 事件 〈“ 缓 冲 区 项 目 变 
为 可 用 ”) 和 一 个 转机 (取出 纺 六 区 项 目 ”)。 


12.6 “使 用 线程 提高 并 行 性 

到 目前 为 止 ， 在 对 并 发 的 研究 中 ， 我 们 都 假设 并 发 线程 是 在 单 处 理 器 系统 上 执行 的 。 然 而 ， 
许多 现代 机 器 具有 多 核 处 理 器 。 并 发 程序 通常 在 这 样 的 机 器 上 运行 得 更 快 ， 因 为 操作 系统 内 核 
在 多 个 核 上 并 行 地 调度 这 些 并 发 线程 ， 而 不 是 在 单个 核 上 顺序 地 调度 。 在 像 繁 忙 的 Web 服务 器 、 
数据 库 服务 器 和 大 型 科学 计算 代码 这 样 的 应 用 中 利用 这 种 并 行 性 是 至 关 重 要 的 ， 而 且 在 像 Web 
浏览 器 、 电 子 表格 处 理 程序 和 文档 处 理 程序 这 样 的 主流 应 用 中 ， 并 行 性 也 变 得 越 来 越 有 用 。 

图 12-30 给 出 了 顺序 、 并 发 和 并 行程 序 之 间 的 集合 关系 。 所 有 程序 的 集合 能 够 划分 成 不 相交 
的 顺序 程序 集合 和 并 发 程序 的 集合 。 写 顺序 程序 只 有 一 条 逻辑 流 。 写 并 发 程序 有 和 多 条 并 发 流 。 并 
行程 序 是 一 个 运行 在 多 个 处 理 器 上 的 并 发 程序 。 因 此 ， 并 行程 序 的 集合 是 并 发 程序 集合 的 真子 集 。 

并 行程 序 的 详细 处 理 超 出 了 本 书 讨论 的 范围 ， 但 是 研究 一 个 非常 简单 的 示例 程序 能 够 帮助 你 
理解 并 行 编程 的 一 些 重要 的 方面 。 例 如 ， 考 虑 我 们 如 何 并 行 地 对 一 列 整 数 0，…，7z-1 求 和 。 当 
然 ， 对 于 这 个 特殊 的 问题 ， 有 闭合 形式 表达 式 的 解答 〈 译 者 注 : 即 有 现成 的 公式 来 计算 它 ， 即 和 
等 于 n(n 一 1)2),， 但 是 尽管 如 此 ， 它 是 一 个 简洁 和 易于 理解 的 示例 ， 能 让 我 们 对 并 行程 序 做 一 些 
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有 趣 的 说 明 。 

最 直接 的 方法 是 将 序列 划分 成 1 个 不 相交 的 区 域 ， 然 后 给 ! 个 不 同 的 线程 每 个 分 配 一 个 区 
域 。 为 了 简单 ， 假 设 n 是 1 的 倍数 ， 这 样 每 个 区 域 有 wm/ 个 元 素 。 主 线程 创建 :个 对 等 线程 ， 每 
个 对 等 线程 并行 地 运行 在 它 自己 的 处 理 器 的 核 上 ， 并 计算 s,，s, 是 区 域 中 元 素 的 和 。 一 旦 对 
等 线程 计算 完毕 ， 主 线程 通过 把 每 个 s, 都 加 起 来 ， 计 算出 最 终 的 结果 。 

图 12-31 给 出 了 我 们 会 如 何 实现 这 个 简单 的 并 行 求 和 算法 。 在 第 27 ~ 32 行 ， 主 线程 创建 
对 等 线程 ， 然 后 等 待 它们 结束 。 注 意 ， 主 线程 传递 给 
每 个 对 等 线程 一 个 小 整数 ， 作 为 唯一 的 线程 ID。 每 个 
对 等 线程 会 用 它 的 线程 ID 来 决定 它 应 该 计算 序列 的 哪 
一 部 分 。 这 个 向 对 等 线程 传递 一 个 小 的 唯一 的 线程 D 
的 思想 是 一 项 通用 技术 ， 许 多 并 行 应 用 中 都 用 到 了 它 。 | 
在 对 等 线程 终止 后 ，psum 向 量 包含 着 每 个 对 等 线程 计 “| 
算出 来 的 部 分 和 。 然 后 主线 程 对 向 量 psum 的 元 素 求 . . 加 网 
和 (第 35 ~ 36 行 )， 并 且 使 用 闭合 形式 解答 来 验证 结 图 1230 顺序 、 并 发 和 并 行程 序 集合 之 问 
果 (第 39 ~ 40 行 )。 的 关系 





code/conc/psum.c 
#include "csapp.h" 


#define MAXTHREADS 32 
void *sum(void *Vargp) ; 


long psum[MAXTHREADS]; /* Partial sum computed by each thread */ 


1 

2 

3 

4 

5 

6 /* Global shared variables */ 

7 

8 long nelems. per.thread; /* Number of elements summed by each thread */ 
9 


10 int main(int argc, char **argv) 


11 1 

12 long i, nelems, log_nelems, nthreads, result = 0; 
13 pthread_t tid[MAXTHREADS] ; 

14 int myid [MAXTHREADS]; 

15 

16 /* Get input arguments +*/ 

17 if (argc != 3) { 

18 printf("Usage: %s <nthreads> <log_nelems>\n", argv[0]); 
19 exit (0); | 

20 } 

21 nthreads = atoi(argv[1]); 

22 log_nelems = atoi(argv[2]); 

23 nelems = (1L << log_nelems); 

24 nelems_per_thread = nelems / nthreads; 

25 | | | : 
26 /* Create peer threads and wait for them to finish */ 
27 for (i =0; i< onde; i++) { 

28 myid[i] = 

29 Pthread ee NULL, sum, »&myid [i]); 
30 } 

31 for (i = 0; i < nthreads; i++) 

32 Pthread_join(tid[i] , NULL); 

33 


图 12-31 简单 的 并 行程 序 ， 使 用 多 个 线程 来 计算 一 个 序列 元 素 的 和 
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34 /* Add up the partial sums computed by each thread */ 
35 for (i = 0; i < nthreads; i++) 

36 result += psum[i]; 

37 

38 /* Check final answer */ 

39 if (result != (nelems * (nelems-1))/2) 

40 printf ("Error: result=%ld\n", result); 

4] 

42 exit (0); 

43 } 


code/conc/psum.c 


图 12-31 ( 续 ) 


图 12-32 给 出 了 每 个 对 等 线程 执行 的 函数 。 在 第 3 行 中 ， 线 程 从 线程 参数 中 提取 出 线程 ID， 
然后 用 这 个 ID 来 决定 它 要 计算 序列 的 哪个 区 域 (第 4 一 5 行 )。 在 第 8 ~ 10 行 中 ， 线 程 在 它 的 
那 部 分 序列 上 操作 ， 然 后 更 新 部 分 和 加 有 量 中 它 的 条 目 《〈 第 11 行 )。 注 意 ， 我 们 很 小 心地 给 了 每 
个 对 等 线程 一 个 唯一 的 存储 位 置 来 更 新 ， 因 此 就 不 需要 用 信和 号 量 互 斥 锁 来 同步 对 psum 数组 的 访 
问 。 在 这 种 特殊 的 情况 下 ， 唯 一 需要 同步 的 是 主线 程 必须 等 待 每 个 子 线程 结束 ， 这 样 它 就 知道 
psum 中 的 每 个 条 目 都 是 有 效 的 了 。 

code/conc/psum.c 


void *sum(void *vargp) 


| 

2 汗 

3 int myid = *((int *)vargp); /* Extract 七 he thread ID */ 
4 long start = myid * nelems_per._thread; /* Start element index */ 
5 long end = start + nelems_per_thread; /* End element index */ 

6 long i, sum = 0; 

7 

8 for (i = start; i < end; i++) { 

9 sum += 工 ; 
10 } 
11 psum[myid] = sum; 
12 、 
13 return NULL ; 

i4 } 


code/conc/psum.c 
图 12-32 ”图 12-31 中 程序 的 线程 例 程 


图 12-33 给 出 了 如 图 12-31 所 示 程 序 的 总 的 运行 时 间 ， 它 是 一 个 线程 个 数 的 函数 。 在 每 种 情 
况 下 ， 程 序 运 行 在 一 个 有 四 个 处 理 器 核 的 系统 上 ， 对 一 个 n=2” 个 元 素 的 序列 求 和 和 。 我 们 看 到 ， 
随 着 线程 数 的 增加 ， 运 行 时 间 下 降 ， 直 到 增加 到 四 个 线程 ， 此 时 ， 运 行 时 间 趋 于 平稳 ， 甚 至 开始 
有 点 增加 。 在 最 理想 的 情况 下 ， 我 们 会 期 望 运行 时 间 随 着 核 数 的 增加 线性 地 下 降 。 也 就 是 说 ， 我 
们 会 期 望 线程 数 每 增加 一 倍 ， 运 行 时 间 就 下 降 一 半 。 确 实 是 这 样 ， 直 到 到 达 : >4 的 时 候 ， 四 个 
核 中 的 每 一 个 都 忙于 运行 至 少 一 个 线程 。 随 着 线程 数量 的 增加 ， 运 行 时 间 实 际 上 增加 了 一 点 ， 这 
是 由 于 在 一 个 核 上 多 个 线程 上 下 文 切 换 的 开销 。 由 于 这 个 原因 ， 并 行程 序 常常 被 写 为 每 个 核 上 只 
运行 一 个 线程 。 

虽然 绝对 运行 时 间 是 衡量 程序 性 能 的 终极 标准 ， 但 是 还 是 有 一 些 有 用 的 相对 衡量 标准 ， 称 
为 加 速 比 和 效率 ， 它 们 能 够 说 明 并 行程 序 有 多 好 地 利用 了 潜在 的 并 行 性 。 并 行程 序 的 加 速 比 
(Speedup ) 通常 定义 为 
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$y 一 


| 


这 里 p 是 处 理 器 核 的 数量 ,是 在 个 核 上 的 运行 时 间 。 这 个 公式 有 时 称 为 强 扩展 (strong 
scaling)。 当 7T 是 程序 顺序 执行 版 本 的 执行 时 间 时 ，5, 称 为 绝对 加 速 比 (absolute speedup)。 当 
7 是 程序 并 行 版 本 在 一 个 核 上 的 执行 时 间 时 ，5, 称 为 相对 加 速 比 〈relative speedup)。 绝 对 加 速 
比比 相对 加 速 比 能 更 真实 地 衡量 并 行 的 好 处 。 即 使 是 当 并 行程 序 在 一 个 处 理 器 上 运行 时 ， 也 常 稍 
会 受到 同步 开销 的 影响 ， 而 这 些 开 销 会 人 为 地 增加 相对 加 速 比 的 数值 ， 因 为 它们 使 分 子 增 大 了 。 
另 一 方面 ， 绝 对 加 速 比比 相对 加 速 比 更 难以 测量 ， 因 为 测量 绝对 加 速 比 需要 程序 的 两 种 不 同 的 版 
本 。 对 于 复杂 的 并 行 代码 ， 人 顺序 版 本 可 能 不 太 实际 ， 或 者 因为 代码 太 复杂 ， 或 者 
I 可 得 。 


”时 间 (s) 





4 
线程 
图 12-33 ”图 12-31 中 程序 在 有 四 个 核 的 多 核 机 器 上 的 性 能 。 到 有 2 人 
ee 效率 〈efficiency)， 和 定义 为 . 
和 
” p pT, 
通常 表示 为 范围 在 (0，100] 之 间 的 百分比 。 效 率 是 对 由 于 并 行 化 造成 的 开销 的 衡量 。 具 有 高 
效率 的 程序 比 效率 低 的 程序 在 有 用 的 工作 上 花费 更 多 的 时 间 ， 在 同步 和 通信 上 花费 更 少 的 时 间 。 
图 12-34 给 出 了 我 们 并 行 求 和 示例 程序 的 各 个 加 速 比 和 效率 测量 值 。 像 这 样 超过 90% 的 效 
率 是 非常 好 的 ， 但 是 不 要 被 欺骗 了 。 能 取得 这 么 高 的 效率 是 因为 我 们 的 问题 非常 容易 并 行 化 。 在 
实际 中 ， 很 少 会 这 样 。 数 十 年 来 ， 并 行 编程 一 直 是 一 个 很 活路 的 研究 领域 。 随 着 商用 多 核 机 咽 的 
出 现 ， 这 些 机 器 的 核 数 每 几 年 就 翻 一 番 ， 并 行 编 程 会 继续 是 一 个 深入 、 困难 而 活跃 的 研究 领域 。 
线程 (1) 玉 8 16 
”| 核 :(p) 一 4 4 
运行 时 间 (7,) 1.56 0.81 -040 040 0.45 
加 速 比 (5) 1 1.9 3.9 3.9 3.5 | 
效率 (E,) 100% 95% 98% 98% .88% 


图 12-34 ”图 12-33 中 执行 时 间 的 加 速 比 和 并 行 效率 





加 速 比 还 有 另外 一 面 ， 称 为 弱 扩 展 (weak scaling)， 在 增加 处 理 器 数量 的 同时 ， 增 加 问题 的 
规模 ， 这 样 随 着 处 理 器 数量 的 增加 ， 每 个 处 理 器 执行 的 工作 量 保持 不 变 。 在 这 种 描述 中 ， 加 速 比 
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和 效率 被 表达 为 单位 时 间 完 成 的 工作 总 量 。 例 如 ， 如 果 我 们 将 处 理 器 数量 翻 倍 ， 同 时 每 个 小 时 也 
做 了 两 倍 的 工作 量 ， 那 么 我 们 就 有 线性 的 加 速 比 和 100% 的 效率 。 

弱 扩 展 和 常常 是 比 强 扩展 更 真实 的 测量 值 ， 因 为 它 更 准确 地 反映 了 我 们 用 更 大 的 机 器 做 更 多 的 
工作 的 愿望 。 对 于 科学 计算 程序 来 说 尤其 如 此 ， 科 学 计算 问题 的 规模 很 容易 增加 ， 更 大 的 问题 规 
模 直 接 就 意味 着 更 好 的 预测 。 不 过 ， 还 是 有 一 些 应 用 的 规模 不 那么 容易 增加 ， 对 于 这 样 的 应 用 ， 
强 扩 展 是 更 合适 的 。 例 如 ， 实 时 信号 处 理应 用 所 执行 的 工作 量 常常 是 由 产生 信和 号 的 物理 传感器 的 
属性 决定 的 。 改 变 工作 总 量 需要 用 不 同 的 物理 传感器 ， 这 不 太 实际 或 者 不 太 必要 。 对 于 这 类 应 
用 ， 我 们 通常 想 要 用 并 行 来 尽 可 能 快 地 完成 定量 的 工作 。 

攻 练习 题 12.11 对 于 下 表 中 的 并 行程 序 ， 填 写 空白 处 。 假 设 使 用 强 扩展 。 





12.7 其 他 并 发 问题 


你 可 能 已 经 注意 到 了 ， 一 旦 我 们 要 求 同 步 对 共享 数据 的 访问 ， 那 么 事情 就 变 得 复杂 得 多 了 。 
迄今 为 止 ， 我 们 已 经 看 到 了 用 于 互 斥 和 生产 者 - 消费 者 同步 的 技术 ， 但 这 仅仅 是 冰山 一 角 。 同 
步 从 根本 上 说 是 很 难 的 问题 ， 它 引出 了 在 普通 的 顺序 程序 中 不 会 出 现 的 问题 。 这 一 小 节 是 关于 你 
在 写 并 发 程序 时 需要 注意 的 一 些 问题 的 〈 决 不 是 完整 的 ) 综述 。 为 了 让 事情 具体 化 ， 我 们 将 以 线 
程 为 例 描述 我 们 的 讨论 。 不 过 要 记 住 ， 这 些 典型 问题 是 任何 类 型 的 并 发 流 操 作 共 享 资 源 时 都 会 出 
现 的 。 

12.7.1 线程 安全 

当 用 线程 编写 程序 时 ， 我 们 必须 小 心地 编写 那些 具有 称 为 线程 安全 性 〈thread safety) 属性 
的 函数 。 一 个 函数 被 称 为 线程 安全 的 〈thread-safe)， 当 且 仅 当 被 多 个 并 发 线程 反复 地 调用 时 ， 它 
会 一 直 产 生 正 确 的 结果 。 如 果 一 个 函数 不 是 线程 安全 的 ， 我 们 就 说 它 是 线程 不 安全 的 《〈thread- 
unsafe )。 

我 们 能 够 定义 出 四 个 (不 相交 的 ) 线程 不 安全 函数 类 : 

第 1 类 ; 不 保护 共享 变量 的 函数 。 我 们 在 图 12-16 中 的 thread 函数 中 就 已 经 遇 到 过 这 样 的 
问题 ， 该 函数 对 一 个 未 受 保护 的 全 局 计数 器 变量 加 1。 将 这 类 线程 不 安全 函数 变 成 线程 安全 的 ， 
相对 而 言 比较 容易 : 利用 像 已 和 三 操作 这 样 的 同步 操作 来 保护 共享 的 变量 。 这 个 方法 的 优点 是 
在 调用 程序 中 不 需要 做 任何 修改 。 缺 点 是 同步 操作 将 减 慢 程序 的 执行 时 间 。 

第 2 类 : 保持 跨越 多 个 调用 的 状态 的 函数 。 一 个 伪 随 机 数 生 成 器 是 这 类 线程 不 安全 函数 的 简 
单 例子 。 请 参考 图 12-35 中 的 伪 随 机 数 生成 器 程序 包 。zand 函数 是 线程 不 安全 的 ， 因 为 当前 调 
用 的 结果 依赖 于 前 次 调用 的 中 间 结 果 。 当 调用 srand 为 rand 设置 了 一 个 种 子 后 ， 我 们 从 一 个 
单线 程 中 反复 地 调用 rand， 能 够 预期 得 到 一 个 可 重复 的 随机 数字 序列 。 然 而 ， 如 果 多 线程 调用 
rand 函数 ， 这 种 假设 就 不 再 成 立 了 。 

使 得 像 rand 这 样 的 函数 线程 安全 的 唯一 方式 是 重 写 它 ， 使 得 它 不 再 使 用 任何 static 数 
据 ， 而 是 依靠 调用 者 在 参数 中 传递 状态 信息 。 这 样 做 的 缺点 是 ， 程 序 员 现在 还 要 被 迫 修改 调用 程 
序 中 的 代码 。 在 一 个 大 的 程序 中 ， 可 能 有 成 百 上 千 个 不 同 的 调用 位 置 ， 做 这 样 的 修改 将 是 非常 麻 
烦 的 ， 而 且 容 易 出 错 。 z | 





党 12 莫 刘 和 发 编程 681 


code/conc/rand.c 


unsigned int.next = 1; 


1 
2 
3 /* rand -~ return pseudo-random integer on 0..32767 */ 
4 int rand(void) 
5 
6 next = next*1103515245 + 12345; 
7 ‘ return (unsigned int) (next/65536) % 32768 ; 
8 
9 
10 /x srand - set seed for rand() */ 
11 void srand(unsigned int seed) 
12 
13 next = Seed ; 
14 了 


code/conc/rand.c 


图 12-35 一 个 线程 不 安全 的 伪 随 机 数 生 成 器 [58] 


第 3 类 : 返回 指向 静态 变量 的 指针 的 函数 。 某 些 函 数 ， 例 如 ctime 和 gethostbyname， 将 计 
算 结果 放 在 一 个 static 变量 中 ， 然 后 返回 一 个 指向 这 个 变量 的 指针 。 如 果 我 们 从 并 发 线程 中 调用 
这 些 函 数 ， 那 么 将 可 能 发 和 灾难， 因为 正在 被 一 个 线程 使 用 的 结果 会 被 男 一 个 线程 悄悄 地 有 覆盖 了 。 

有 两 种 方法 来 处 理 这 类 线程 不 安全 函数 。 一 种 选择 是 重 写 函 数 ， 使 得 调用 者 传递 存放 结果 的 
变量 的 地 址 。 这 就 消除 了 所 有 共享 数据 ， 但 是 它 要 求 程 序 员 能 够 修改 函数 的 源 代 码 。 

如 果 线 程 不 安全 函数 是 难以 修改 或 不 可 能 修改 的 〈 例 如 ， 代 码 非 常 复杂 或 是 没有 源 代码 可 
用 )， 那 么 另外 一 种 选择 就 是 使 用 加 锁 一 拷贝 (lock-and-copy) 技术 。 基 本 思想 是 将 线程 不 安全 
天 数 与 互 斥 锁 联 系 起 来 。 在 每 一 个 调用 位 置 ， 对 互 斥 锁 加 锁 ， 调 用 线程 不 安全 函数 ， 将 函数 返回 
的 结果 拷贝 到 一 个 私有 的 存储 器 位 置 ， 然 后 对 互 斥 锁 解 锁 。 为 了 尽 可 能 地 减少 对 调用 者 的 修改 ， 
你 应 该 定义 一 个 线程 安全 的 包装 函数 ， 它 执行 加 锁 - 拷贝 ， 然 后 通过 调用 这 个 包装 函数 来 取代 
所 有 对 线程 不 安全 函数 的 调用 。 例 如 ， 图 12-36 给 出 了 ctime 的 一 个 线程 安全 的 版 本 ， 利 用 的 
就 是 加 锁 - 拷贝 技术 。 

第 4 类 ; 调用 线程 不 安全 画 数 的 函数 。 如 果 函 数 ,/ 调 用 线程 不 安全 函数 g， 那 么 /就 是 线程 
不 安全 的 吗 ? 不 一 定 。 如 果 g 是 第 2 类 函数 ， 即 依赖 于 跨越 多 次 调用 的 状态 ， 那 么 /也 是 线程 不 
安全 的 ， 而 且 除 了 重 写 g 以 外 ， 没 有 什么 办 法 。 然 而 ， 如 果 g 是 第 1 类 或 者 第 3 类 函数 ， 那 么 只 
要 你 用 一 个 互 斥 锁 保 护 调用 位 置 和 任何 得 到 的 共享 数据 ，j 仍然 可 能 是 线程 安全 的 。 在 图 12-36 
中 我 们 看 到 了 一 个 这 种 情况 很 好 的 示例 ， 其 中 我 们 使 用 加 锁 - 拷贝 编写 了 一 个 线程 安全 函数 ， 
它 调用 了 一 个 线程 不 安全 的 函数 。 
code/conc/ctime ts.c 
char *ctime_ts(const time_t *timep, char *privatep) 


] 

2 -六 

3 char *sharedp; 

. 

5 P(&mutex) ; 

6 sharedp = ctime(timep) ; 

7 strcpy (privatep, sharedp); /* Copy string from shared to private */ 
8 V(&mutex); ; | 

9 return privatep; 

10 } 


code/conc/ctime _ts.c 


图 12-36 “C 标准 库 函数 ctime 的 线程 安全 的 包装 函数 。 使 用 加 锁 -拷贝 技术 油 用 一 个 第 3 类 线程 不 安全 函数 
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12.7.2 可 重 入 性 
有 一 类 重要 的 线程 安全 函数 ， 叫 做 可 重 入 函数 (reentrant function)， 其 特点 在 于 它们 具有 这 

样 一 种 属性 : 当 它 们 被 多 个 线程 调用 时 ， 不 会 引用 : 

任何 共享 数据 。 尽 管线 程 安全 和 可 重 入 有 时 会 (不 所 站 的 西数 

正确 地 ) 被 用 做 同义词 ， 但 是 它们 之 间 还 是 有 清晰 片 线 入 

的 技术 差别 的 ， 值 得 留意 。 图 12-37 展示 了 可 重信 | 

函数 、 线 程 安全 函数 和 线程 不 安全 函数 之 间 的 集合 

关系 。 所 有 函数 的 集合 被 划分 成 不 相交 的 线程 安全 





和 线程 不 安全 函数 集合 。 可 重 人 函数 集合 是 线程 安 - 
全 函数 的 一 个 真子 集 。 图 12-37 可 重 人 函数 、 线 程 安全 函数 和 线 
可 重 人 函数 通常 要 比 不 可 重信 的 线程 安全 的 函 程 不 安全 函数 之 间 的 集合 关系 


数 高 效 一 些 ， 因 为 它们 不 需要 同步 操作 。 更 进一步 来 说 ， 将 第 2 类 线程 不 安全 函数 转化 为 线 
程 安全 函数 的 唯一 方法 就 是 重 写 它 ， 使 之 变 为 可 重 和 人 的。 例如， 图 12-38 展示 了 图 12-35 中 
rand 消 数 的 一 个 可 重信 的 版 本 。 关 键 思 想 是 我 们 用 一 个 调用 者 传递 进来 的 指针 取代 了 静态 的 
next 变量 。 


code/conc/rand_r.c 

/+ rand.r ~ a reentrant pseudo-random integer or 0..32767 */ 

int rand_r(unsigned int *nextp) 

{ ' 
*nextp = *nextp * 1103515245 + 12345 ; 
return (unsigned int) (*nextp / 65536) % 32768; 

} 


Gin ww N 一 


一 code/conc/rand_rc 


图 12-38 rand rz : 图 12-35 中 的 rand 函数 的 可 重 入 版 本 


检查 某 个 函数 的 代码 并 先 验 地 断定 它 是 可 重信 的 ， 这 可 能 吗 ? 不 幸 的 是 ， 不 一 定 能 这 样 。 如 
果 所 有 的 函数 参数 都 是 传 值 传递 的 〈 即 没有 指针 )， 并 且 所 有 的 数据 引用 都 是 本 地 的 自动 栈 变 量 
( 即 没有 引用 静态 或 全 局 变量 )， 那 么 函数 就 是 显 式 可 重 入 的 〈explicitly reentrant)， 也 就 是 说 ， 
无 论 它 是 被 如 何 调用 的 ， 我 们 都 可 以 断言 它 是 可 重信 的 。 

然而 ， 如 果 把 我 们 的 假设 放宽 松 一 点 ， 人 允许 显 式 可 重 人 函数 中 的 一 些 参数 是 引用 传递 的 ( 即 
我 们 允许 它们 传递 指针 )， 那 么 我 们 就 得 到 了 一 个 隐 式 可 重 入 的 (implicitly reentrant) 函数 ， 也 
就 是 说 ， 如 果 调 用 线程 小 心地 传递 指 回 非 共享 数据 的 指针 ， 那 么 它 是 可 重信 的 。 例 如， 图 12-38 
中 的 rand_r 函数 就 是 隐 和 式 可 重信 的 。 

我 们 总 是 使 用 术语 可 重 入 的 〈Teentrant ) 既 包 括 显 式 可 重 人 函数 也 包括 隐 式 可 重 人 函数 。 然 
而 ， 认 识 到 可 重 人 性 有 时 既是 调用 者 也 是 被 调用 者 的 属性 ， 并 不 只 是 被 调用 者 单独 的 属性 是 非常 
重要 的 。 
攻 练习 题 12.12 图 12-36 中 的 ctime_ts 函数 是 线程 安全 的 ， 但 不 是 可 重 入 的 。 请 解释 说 明 。 
12.7.3 在 线程 化 的 程序 中 使 用 已 存在 的 库 函 数 

大 多 数 Unix 函数， 包括 定义 在 标准 C 库 中 的 阴 数 (例如 eR free、 realloc、 
printf 和 scanf) 都 是 线程 安全 的 ， 只 有 一 小 部 分 是 例外 。 图 12-39 列 出 了 常见 的 例外 。( 参 
考 [109] 可 以 得 到 一 个 完整 的 列表 。) asctime、ctime 和 1localtime 函数 是 在 不 同时 间 和 
数据 格式 间 相 互 来 回转 换 时 经 常 使 用 的 函数 。gethostbyname、gethostbyaddr 和 inet 
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ntoa 函数 是 我 们 在 第 11 章 中 过 到 过 的 、 经 常 使 用 的 网 络 编程 消 数 。strtok 函数 是 一 个 过 时 了 
的 (不 再 鼓励 使 用 的 ) 用 来 分 析 字 符 串 的 函数 。 


线程 不 安全 函数 线程 不 安全 类 Unix 线程 安全 版 本 


rand rand_r 
strtok 


asctime 


strtok._r 
asctime_r 
ctime_r 
gethostbyaddr_r 
gethostbyname_r 
(无 ) 


localtime_r 


ctime 
| gethostbyaddr 


gethostbyname 


inet_ntoa 





LO DO UMD DD 


localtime 


图 12-39 ”常见 的 线程 不 安全 的 库 消 数 


除了 rand 和 strtok 以 外 ， 所 有 这 些 线程 不 安全 函数 都 是 第 3 类 的 ， 它 们 返回 一 个 指向 静 
态 变 量 的 指针 。 如 果 我 们 需要 在 一 个 线程 化 的 程序 中 调用 这 些 函 数 中 的 某 一 个 ， 对 调用 者 来 说 最 
不 营 麻 烦 的 方法 是 加 锁 - 拷贝。 然而 ， 加 锁 - 拷贝 方法 有 许多 缺点 。 首 先 ， 额 外 的 同步 降低 了 
a 其 次 ， 像 gethostbyname 这 样 的 函数 返回 指向 复杂 结构 的 结构 的 指针 ， 要 拷贝 
结构 层次 ， 需 要 深层 描 贝 (deep copy) 结构 。 再 次 ， 加 锁 一 拷贝 方法 对 像 rand 这 样 依赖 
的 静态 状态 的 第 2 类 函数 并 不 有 效 。 
因此 ，Unix 系统 提供 大 多 数 线程 不 安全 函数 的 可 重信 版 本 。 可 重 人 版 本 的 名 字 总 是 以 ″ z” 
后 缀 结尾 。 例 如 ，gethostbyname 的 可 重信 版 本 就 叫做 gethostbyname r。 我 们 建议 尽 可 
能 地 使 用 这 些 函 数 。 
12.7.4 ”竞争 
当 一 个 程序 的 正确 性 依赖 于 一 个 线程 要 在 男 一 个 线程 到 达 y 点 之 前 到 达 它 的 控制 流 中 的 
x 点 时 ， 就 会 发 生 竞争 (race)。 通 常 发 生 竞 争 是 因为 程序 员 假 定 线 程 将 按照 某 种 特殊 的 轨迹 
线 穿 过 执行 状态 空间 ， 而 忘记 了 另 一 条 准则 规定 : 和 
正确 工作 。 
例子 是 理解 竞争 本 质 的 最 简单 的 方法 。 让 我 们 来 看 看 图 12-40 中 的 简单 程序 。 主 线程 创建 了 
四 个 对 等 线程 ， 并 传递 一 个 指向 一 个 唯一 的 整数 ID 的 指针 到 每 个 线程 。 每 个 对 等 线程 拷贝 它 的 
参数 中 传递 的 ID 到 一 个 局 部 变量 中 (第 21 行 )， 然 后 输出 一 个 包含 这 个 ID 的 信息 。 它 看 上 去 
足够 简单 ， 但 是 当 在 系统 上 运行 这 个 程序 时 ， 我 们 得 到 以 下 不 正确 的 结果 : 


Unix> ./race 

Hello from thread 1 
Hello from thread 3 
Hello from thread 2 
Hello from thread 3 


问题 是 由 每 个 对 等 线程 和 主线 程 之 间 的 竞争 引起 的 。 你 能 发 现 这 个 竞争 吗 ? 下 面 是 发 生 的 情 
况 。 当 主线 程 在 第 12 行 创建 了 一 个 对 等 线程 ， 它 传递 了 一 个 指向 本 地 栈 变量 i 的 指针 。 在 此 时 ， 
竞争 出 现在 下 一 次 在 第 12 行 调用 Pthread_create 和 第 21 行 参数 的 间接 引用 和 赋值 之 间 。 如 
果 对 等 线程 在 主线 程 执行 第 12 行 之 前 就 执行 了 第 21 行 ， 那 么 myid 变量 就 得 到 正确 的 ID。 否 
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在 序 间 了 巷 区 互 和 通信 


则 ， 它 包含 的 就 是 其 他 线程 的 症 。 令 人 惊慌 的 是 ， 我 们 是 否 得 到 正确 的 答案 依赖 于 内 核 是 如 何 
调度 线程 的 执行 的 。 在 我 们 的 系统 中 它 失败 了 ， 但 是 在 其 他 系统 中 ， 它 可 能 就 能 正确 工作 ， 让 程 
序 员 “幸福 地 ”察觉 不 到 程序 的 严重 错误 。 


code/conc/race.c 

#include "csapp.h" 
#define N 4 
void *thread(void *vargp); 
int main() 
{ 

pthread_t tid[N] ; 

int i; 

for (i = 0; i < N; i++) 

Pthread._create(&tid[i], NULL, thread, &i); 
for (i = 0; i < N; i++) 
Pthread_join(tid[i] ，NULL) ; 

exit(O) ; 
} 
/* Thread routine */ 
void *thread(void *vargp) 
{ 

int myid = *((int *)vargp); 

printf ("Hello from thread %d\n", myid); 

return NULL; 
小 

code/conc/race.c 


图 12-40 下 丰台 这 的 各 友 


为 了 消除 竞争 ， 我 们 可 以 动态 地 为 每 个 整数 ID 分 配 一 个 独立 的 块 并 且 传 递 给 线程 例 程 一 
个 指向 这 个 块 的 指针 ， 如 图 12-41 所 示 (第 12 ~ 14 行 )。 请 注意 线程 例 程 必须 释放 这 些 块 以 避 


免 存储 器 泄漏 。 


当 在 系统 上 运行 这 个 程序 后 ， 我 们 现在 得 到 了 正确 的 结果 


Unix> ,/norace 


Hello from thread 0 
Hello from thread 1 
Hello from thread 2 
Hello from thread 3 





巧 AS 练习 题 12.13 ”在 图 12.41 中 ， 我 们 可 能 想 要 在 主线 程 中 的 第 15 行 后 立即 有 释 放 已 分 配 的 存储 器 块 ， 而 


不 是 在 对 等 线程 中 释放 它 。 但 是 这 会 是 个 坏 注意 。 这 是 为 什么 ? 

ES 练习 题 12.14 A. 在 图 12.41 中 ， 人 给 出 一 个 不 
调用 malLloc 或 free 函数 的 不 同 的 方法 。 
了 3 这 种 方法 的 利 次 是 什么 ? 
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code/conc/Mmorace.c 


1 #include "csapp.h" 
: #define N 4 


void *thread(void *vargp); 
{ 


pthread_t tid[N] ; 
9 int i, *ptr; 


3 
4 
5 
6 int main() 
/ 
8 


11 for (i = 0; i < N; i++) { 


说 ptr = Malloc(sizeof (int)); 

13 *ptr = i; 

14 Pthread_create(&tid[i], NULL, thread, ptr); 
15 } 

16 for (i = 0; i < N; i++) 

17 Pthread_join(tid[i] ,NULL); 

18 exit (0); 

19 3} : 

20 

21 /* Thread routine */ 

22 void *thread(void *vargp) 

23 攻 

24 int myid = *((int *)vargp); 

25 Free(vargp) ; 

26 printf("Hello from thread %d\n", myid); 
27 return NULL ; 

28 } 


code/conc/mnorace.c 


图 12-41 图 12-40 中 程序 的 一 个 没有 竞争 的 正确 版 本 


12.7.5” 死 锁 
信号 量 引 入 了 一 种 潜在 的 令 人 厌恶 的 运行 时 错误 ， 叫 做 死 锁 (deadlock)， 它 指 的 是 一 组 线 
程 被 阻塞 了 ， 等 待 一 个 永远 也 不 会 为 真 的 条 件 。 进 度 图 对 于 理解 死 锁 是 一 个 无 价 的 工具 。 例 如 ， 
图 12-42 展示 了 一 对 用 两 个 信和 号 量 来 实现 互 斥 的 线程 的 进度 图 。 从 这 幅 图 中 ， 我 们 能 够 得 到 一 些 
关于 死 锁 的 重要 知识 : z 
* 程序 员 使 用 忆 和 三 操作 顺序 不 当 ， 以 至 于 两 个 信号 量 的 禁止 区 域 重要 。 如 果 某 个 执行 轨迹 
线 碰 巧 到 达 了 死 锁 状态 4， 那 么 就 不 可 能 有 进一步 的 进展 了 ， 因 为 重 秋 的 禁止 区 域 阻塞 了 
每 个 合法 方向 上 的 进展 。 换 句 话 说， 程序 死 锁 是 因为 每 个 线程 都 在 等 待 其 他 线程 执行 一 个 
根本 不 可 能 发 生 的 下 操作 。 
“ 重合 的 禁止 区 域 引起 了 一 组 称 为 死 锁 区 域 〈deadlock region) 的 状态 。 如 果 一 个 轨迹 线 碰巧 
到 达 了 一 个 死 锁 区 域 中 的 状态 ， 那 么 死 锁 就 是 不 可 避免 的 了 。 轨 迹 线 可 以 进入 死 锁 区 域 ， 
但 是 它们 不 可 能 离开 。 
" 死 锁 是 一 个 相当 困难 的 问题 ， 因 为 它 不 总 是 可 预测 的 。 一 些 幸 运 的 执行 轨迹 线 将 绕 开 和 死 锁 
区 域 ， 而 其 他 的 将 会 陷入 这 个 区 域 。 图 12-42 展示 了 每 种 情况 的 一 个 示例 。 对 于 程序 员 来 
说 ， 这 其 中 隐 含 的 着 实 令 人 惊慌 。 你 可 以 运行 一 个 程序 1000 次 不 出 任何 问题 ， 但 是 下 一 
次 它 就 死 锁 了 。 或 者 程序 在 一 台 机 器 上 可 能 运行 得 很 好 ， 但 是 在 另外 的 机 器 上 就 会 死 锁 。 
最 糟糕 的 是 ， 错 误 常 常 是 不 可 重复 的 ， 因 为 不 同 的 执行 有 不 同 的 轨迹 线 。 
程序 死 锁 有 很 多 原因 ， 要 避免 死 锁 一 般 而 言 是 很 困难 的 。 然 而 ， 当 使 用 二 元 信号 量 来 实现 互 
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斥 时 ， 如 图 12-42 所 示 ， 你 可 以 应 用 下 面 的 简单 而 有 效 的 规则 来 避免 死 锁 ; 


互 斥 锁 加 锁 顺 序 规则 ; 如 果 对 于 程序 中 每 对 互 乒 锁 (s，7), | 每 个 同时 占用 s 和 上 的 
线程 都 按照 相同 的 顺序 对 它们 加 锁 ， 那 么 这 个 程序 就 是 无 死 锁 的 。 


例如 ， 我 们 可 以 通过 这 样 的 方法 来 解决 图 12-42 中 的 死 锁 问 题 : 在 每 个 线程 中 先 对 s 加 锁 ， 
然后 再 对 ! 加 锁 。 图 12-43 展示 了 得 到 的 进度 图 。 


线程 2 


无 死 锁 的 轨迹 


VD 


P(s) 


PU 





初始 
3= 工 
和 线程 1 
PGs) .… PO ... Vs) .VD 
图 12-42 一 个 有 死 锁 程序 的 进度 图 
线程 2 
Vs) 
VD) 
POW) 
P(s) 
初始 
3=1 
t=1 





P(s) ta P(t) soe. Vs) 和 汕 就 | A) 线程 1 
图 12-43 ”一 个 无 死 锁 程 序 的 进度 图 





练习 题 12.15 思考 下 面 的 程序 ， 它 试图 使 用 一 对 信号 量 来 实现 互 斥 。 
初始 时 : s=1，t=0。 


www.lopSage.com 
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线程 1 ; 线程 2 ; 
p(s); P(s) ; 
V(s); V(s) ; 
P(t) ; P(t) ; 
V(t) ; V(t); 


A. 画 出 这 个 程序 的 进度 图 。 

B. 它 会 总 是 死 锁 吗 ? 

C. 如 果 是 ， 那 么 对 初始 信号 量 的 值 做 哪些 简单 的 改变 就 能 消除 这 种 潜在 的 死 锁 呢 ? 
D. 画 出 得 到 的 无 死 锁 程序 的 进度 图 。 


12.8 小结 


一 个 并 发 程序 是 由 在 时 间 上 重 公 的 一 组 逻辑 流 组 成 的 .在 这 一 章 中 ， 我 们 学 习 了 三 种 不 同 的 
构建 并 发 程序 的 机 制 : 进程 、IO 多 路 复 用 和 线程 。 我 们 以 一 个 并 发 网 络 服务 器 作为 贯穿 全 章 的 
应 用 程序 。 

进程 是 由 内 核 自动 调度 的 ， 而 且 因 为 它们 有 各 自 独立 的 虚拟 地 址 空间 ， 所 以 要 实现 共享 数 
据 ， 必 须要 有 显 式 的 IPC 机 制 。 事 件 驱动 程序 创建 它们 自己 的 并 发 逻辑 流 ， 这 些 逻 辑 流 被 模型 
化 为 状态 机 ， 用 IO 多 路 复 用 来 显 式 地 调度 这 些 流 。 因 为 程序 运行 在 一 个 单一 进程 中 ， 所 以 在 流 
之 间 共享 数据 速度 很 快 而 且 很 容易 。 线 程 是 这 些 方法 的 综合 。 同 基于 进程 的 流 一 样 ， 线 程 也 是 由 
内 核 自动 调度 的 。 同 基于 1/O 多 路 复 用 的 流 一 样 ， 线 程 是 运行 在 一 个 单一 进程 的 上 下 文中 的 ， 因 
此 可 以 快速 而 方便 地 共享 数据 。 

无 论 哪 种 并 发 机 制 ， 同 步 对 共享 数据 的 并 发 访问 都 是 一 个 困难 的 问题 。 提 出 对 信号 量 的 P 

入 操作 就 是 为 了 帮助 解决 这 个 问题 。 信 号 量 操作 可 以 用 来 提供 对 共享 数据 的 互 斥 访问 ， 也 对 
诸如 生产 者 一 消费 者 程序 中 有 限 缓冲 区 和 读者 - 写 者 系统 中 的 共享 对 象 这 样 的 资源 访问 进行 调 
度 。 一 个 并 发 预 线程 化 的 echo 服务 器 提供 了 信号 量 使 用 场景 的 很 好 的 例子 。 
并 发 也 引入 了 其 他 一 些 困难 的 问题 。 被 线程 调用 的 函数 必须 具有 一 种 称 为 线程 安全 的 属性 。 
我 们 定义 了 四 类 线程 不 安全 的 函数 ， 以 及 一 些 将 它们 变 为 线程 安全 的 建议 。 可 重 人 函数 是 线程 安 
全 函数 的 一 个 真子 集 ， 它 不 访问 任何 共享 数据 。 可 重 人 函数 通常 比 不 可 重 人 函数 更 为 有 效 ， 因 为 
它们 不 需要 任何 同步 原 语 。 竞 争 和 死 锁 是 并 发 程序 中 出 现 的 另 一 些 困 难 的 问题 。 当 程序 员 错误 地 
假设 逻辑 流 该 如 何 调度 时 ， 就 会 发 生 竞争 。 当 一 个 流 等 待 一 个 永远 不 会 发 生 的 事件 时 ， 就 会 产生 
死 锁 。 / 


参考 文献 说 明 


信号 量 操 作 是 Dijkstra 提出 的 [37]。 进度 图 的 概念 是 Cofftman[24] 提出 的 ， 后 来 由 Carson 
和 Reynolds[17] 形式 化 的 。Courtois 等 人 [31] 提出 了 读者 一 写 者 问题 。 操 作 系 统 教科 书 更 详细 
地 描述 了 经 典 的 同步 问题 ， 例 如 哲学 家 进餐 问题 、 打 睛 睡 的 理发 师 问 题 和 吸烟 者 问题 [98，104， 
112]。Butenhof 的 书 [16] 对 Posix 线程 接口 有 全 面 的 描述 。Birrell[7] 的 论文 对 线程 编程 以 及 线 
程 编 程 中 容易 遇 到 的 问题 做 了 很 好 的 介绍 。Reinders 的 书 [86] 描述 了 C/C++ 库 ， 简 化 了 线程 化 
程序 的 设计 和 实现 。 有 一 些 课本 讲述 了 多 核 系 统 上 并 行 编程 的 基础 知识 [50，67]。Pugh 描述 了 
Java 线程 通过 存储 器 进行 交互 的 方式 的 缺陷 ， 并 提出 了 替代 的 存储 器 模型 [84]。Gustafson 提出 
了 和 替代 强 扩展 的 弱 扩 展 加 速 模型 [46]。 
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家 庭 作业 
*12.16 编写 hello.c〔( 见 图 12-13) 的 一 个 版 本 ， 它 创建 和 回收 nn 个 可 结合 的 对 等 线程 ， 其 中 是 一 个 命 


* 12.17 


* 12.18 


**12.19 


* 半 12.20 
1 
* * 12.22 


* * 12.23 


* 12.24 


令 行 参数 。 

A. 图 12-44 中 的 程序 有 一 个 bug。 要 求 线程 睡眠 一 秒 钟 ， 然 后 输出 一 个 字符 串 。 然 而 ， 当 在 我 们 的 
系统 上 运行 它 时 ， 却 没有 任何 输出 。 这 是 为 什么 ? 

B. 你 可 以 通过 用 两 个 不 同 的 Pthreads 函数 调用 中 的 一 个 替代 第 9 行 中 的 exit 函数 来 改正 这 个 错 
误 。 选 择 哪 一 个 呢 ? 


code/conc/hellobug.c 
1 #include "csapp.h" 
2 void *thread(void *vargp); 
3 
4 int main() 
2 。 
6 .pthread._t tid; 
7 z : 
8 Pthread_create(&tid, NULL, thread, NULL); 
9 | exit(0); 
0 
TT 
12 /* Thread routine */ . 
13 void *thread(void *vargp) 
14 : 
15 | Sleep (1) ; 
16 printf ("Hello, world!\n'"); 
17 return NULL ; 
is 
code/conc/hellobug.c 


/ 图 12-44 家庭 作业 题 12.17 的 有 bug 的 程序 
用 图 12-21 中 的 进度 图 ， 将 下 面 的 轨迹 线 分 类 为 安全 或 者 不 安全 的 。 


A 3 Ly ,Hi Lr 8 
B.. Hy, ,Ly, Ur, Ss, L2, Ty, Uz $2; D 
C. Hi, Li, Eo, L2, Us, $2, U1, $1, D1, To 


图 12-26 中 第 一 类 读者 一 写 者 问题 的 解答 给 予 读者 的 是 有 些 弱 的 优先 级 ， 因 为 读者 在 离开 它 的 临界 
区 时 ， 可 能 会 重启 一 个 正在 等 待 的 写 者 ， 而 不 是 一 个 正在 等 待 的 读者 。 推 导出 一 个 解答 ， 它 给 予 读 
We 
等 待 的 读者 。 

考虑 读者 - 写 者 问题 的 一 个 更 简单 的 变种 ， 即 最 多 只 有 六 个 读者 。 推 导出 一 个 解答 ， 给 予 读者 和 
写 者 同等 的 优先 级 ， 即 等 待 中 的 读者 和 写 者 被 赋予 对 资源 访问 的 同等 的 机 会 。 提 示 : 你 可 以 用 一 个 
计数 信号 量 和 一 个 互 斤 锁 来 解决 这 个 问题 。 

推导 出 第 二 类 读者 一 写 者 问题 的 一 个 解答 ， 在 此 写 者 的 优先 级 高 于 读者 。 

检查 一 下 你 对 select 函数 的 理解 ， 请 修改 图 12-6 中 的 服务 器 ， 使 得 它 在 主 服务 器 的 每 次 迭代 中 
最 多 只 回 送 一 个 文本 行 

图 12-8 中 的 事件 驱动 并 发 ccho 服务 器 是 有 忽 陷 的 ， 因为 一 -个 恶意 的 客户 端 能 够 通过 发 送 部 分 的 广 


本 行 ， 使 服务 器 拒绝 为 其 他 客户 端 服 务 。 编 写 一 个 改进 的 服务 器 版 本 ， 使 之 能 够 非 阻塞 地 处 理 这 些 


部 分 文本 行 
RIO VO 包 中 的 函数 〈 见 10.4 节 ) 都 是 线程 安全 的 。 它 们 也 都 是 可 重 入 函数 吗 ? 
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*12.25 在 图 12-28 中 的 预 线程 化 的 并 发 echo 服务 器 中 ， 每 个 线程 都 调用 echo_cnt 函数 〈 见 图 12-29)。 
echo_cnt 是 线程 安全 的 吗 ? 它 是 可 重 入 的 吗 ? 为 什么 是 或 为 什么 不 是 呢 ? 

*iy12.26 用 加 锁 一 拷贝 技术 来 实现 gethostbyname 的 一 个 线程 安全 而 又 不 可 重 入 的 版 本 ， 称 为 
gethostbyname ts。 一 个 正确 的 解答 是 使 用 由 互 斥 锁 保 护 的 hostent 结构 的 深层 拷贝 。 

**# 12.27 一 些 网 络 编程 的 教科 书 建议 用 以 下 的 方法 来 读 和 写 套 接 字 : 和 客户 端 交互 之 前 ， 在 同一 个 打开 的 已 
连接 套 接 字 描述 符 上 ， 打 开 两 个 标准 IO 流 ， 一 个 用 来 读 ， 一 个 用 来 写 : 


FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"), 
fpout = fdopen(sockfd, "w'); 


当 服务 器 完成 和 客户 端的 交互 之 后 ， 像 下 面 这 样 关 闭 两 个 流 : 


fclose(fpin); 
fclose(fpout); 


然而 ， 如 果 你 试图 在 基于 线程 的 并 发 服务 器 上 尝试 这 种 方式 ， 你 将 制造 一 个 致命 的 竞争 条 件 。 请 解释 。 
* 12.28 在 图 12-43 中 ， 将 两 个 亚 操 作 的 顺序 交换 ， 对 程序 死 锁 是 否 有 影响 ? 通过 画 出 四 种 可 能 情况 的 进度 
图 来 证 明 你 的 答案 : 





* 12.29 下 面 的 程序 会 死 锁 吗 ? 为 什么 会 或 者 为 什么 不 会 ? 
初始 时 : a=1, b=1，c=1. 


线程 1: 线程 2: 
P(a) ; P(c) ; 
P(b) ; P(b) ; 
V(b); V(b), 
P(Cc) ; VCc) ; 
V(c) ; 

V(a); 


* 12.30 ”考虑 下 面 这 个 会 死 锁 的 程序 。 
初始 时 : a=1，b=1，c=1. 


线程 1: 线程 2: 线程 3: 
P(a) ; P(c) ; P(c) ; 
P(b); P(b) ; V(Cc) ; 
V(b); V(b); P(b); 
P(c); V(c); P(a) ; 
V(c); P(a); V(a); 
V(a); V(a); VCb) ; 


A. 列 出 每 个 线程 同时 占用 的 一 对 互 斥 锁 。 
B. 如 果 a<p<c， 那 么 哪个 线程 违背 了 互 斥 锁 加 锁 顺 序 规 则 ? 
C. 对 于 这 些 线程 ， 指 出 一 个 新 的 保证 不 会 发 生死 锁 的 加 锁 顺 序 。 
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* 半 12.31 


12.32 


**12.33 


**12.34 
**12.35 


* 12.36 
“12.37 


**12.38 


**12.39 
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实现 标准 IO 函数 fgets 的 一 个 版 本 ， 叫 做 tfgets, 假 如 它 在 5 秒 之 内 没有 从 标准 输入 上 接收 

到 一 个 输入 行 ， 那 么 就 超时 ， 并 返回 一 个 NULL 指针 。 你 的 函数 应 该 实现 在 一 个 叫做 tfgets- 

proc.c 的 包 中 ， 使 用 进程 、 信 号 和 非 本 地 跳 转 。 它 不 应 该 使 用 Unix 的 alarm 函数 。 使 用 图 

12-45 中 的 驱动 程序 测试 你 的 结果 。 

使 用 select 函数 来 实现 练习 题 12.31 中 tfgets 函数 的 一 个 版 本 。 你 的 函数 应 该 在 一 个 叫做 

tfgets-select.c 的 包 中 实现 。 用 练习 题 12.31 中 的 驱动 程序 测试 你 的 结果 。 你 可 以 假定 标准 输 

入 被 赋值 为 描述 符 0。 

实现 练习 题 12.31 中 tfgets 函数 的 一 个 线程 化 的 版 本 。 你 的 函数 应 该 在 一 个 叫做 七 fgets- 

thread.c 的 包 中 实现 。 用 练习 题 12.31 中 的 驱动 程序 测试 你 的 结果 。 
-”-- codeconroirfpets-rmaainc 


#include "csapp.h" 


char *tfgets(char *s, int size, FILE *stream) ; 


{ 


1 
2 
3 
4 
5 int main() 
6 
7 char buf [MAXLINE] ; 
8 


9 if (tfgets(buf, MAXLINE, stdin) == NULL) 
10 printf ("BOOM! \n'); 

11 else 

12 printf("%s", buf); 


14 exit (0); 


code/conc/tfgets-main.c 


图 12-45 ”家 庭 作业 题 12.31 ~ 12.33 的 驱动 程序 


编写 一 个 NXM 人 矩阵 乘法 核心 函数 的 并 行 线程 化 版 本 。 比 较 它 的 性 能 与 顺序 的 版 本 的 性 能 。 

实现 一 个 基于 进程 的 TINY Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 个 

新 的 子 进程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解 管 。 

实现 一 个 基于 UO 多 路 复 用 的 TINY Web 服务 器 的 并 发 版 本 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 解答 。 

实现 一 个 基于 线程 的 TINY Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 个 

新 的 线程 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 解答 。 

实现 一 个 TINY Web 服务 器 的 并 发 预 线程 化 的 版 本 。 你 的 解答 应 该 根据 当前 的 负载 ， 动 态 地 增加 或 

减少 线程 的 数目 。 一 个 策略 是 当 缓冲 区 变 满 时 ， 将 线程 数量 翻 倍 ， 而 当 缓冲 区 变 为 空 时， 将 线程 数 

目 减 半 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 解答 。 

Web 代理 是 一 个 在 Web 服务 器 和 浏览 器 之 间 扮 演 中 间 角色 的 程序 。 浏 览 器 不 是 直接 连接 服务 器 以 

获取 网 页 ， 而 是 与 代理 连接 ， 代 理 再 将 请 求 转 发 给 服务 器 。 当 服务 器 响应 代理 时 ， 代 理 将 响应 发 送 

给 浏览 器 。 为 了 这 个 试验 ， 请 你 编写 一 个 简单 的 可 以 过 渡 和 记录 请 求 的 Web 代理 : 

A. 在 试验 的 第 一 部 分 中 ， 你 要 建立 以 接收 请 求 的 代理 ， 分 析 HTTP， 转 发 请 求 给 服务 器 ， 并 且 返 回 
结果 给 浏览 器 。 你 的 代理 将 所 有 请 求 的 URL 记录 在 磁盘 上 一 个 日 志文 件 中 ， 同 时 它 还 要 阻塞 所 
有 对 包含 在 磁盘 上 一 个 过 渡 文 件 中 的 URL 的 请 求 。 

B. 在 试验 的 第 二 部 分 中 ， 你 要 升级 代理 ， 它 通过 派生 一 个 独立 的 线程 来 处 理 每 一 个 请 求 ， 使 得 代理 
能 够 一 次 处 理 多 个 打开 的 连接 。 当 你 的 代理 在 等 待 远程 服务 器 响应 一 个 请 求 使 它 能 服务 于 一 个 六 
览 器 时 ， 它 应 该 可 以 处 理 来 自 另 一 个 浏览 器 未 完成 的 请 求 。 

使 用 一 个 实际 的 浏览 器 来 检验 你 的 解答 。 
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练习 题 答案 
练习 题 12.1 当 父 进 程 派 生子 进程 时 ， 它 得 到 一 个 已 连接 描述 符 的 副本 ， 并 将 相关 文件 表 中 的 引用 计数 从 
1 增加 到 2。 当 父 进程 关闭 它 的 描述 符 副本 时 ， 引 用 计数 就 从 2 减少 到 1。 因为 内 核 不 会 关闭 一 个 文件 ， 直 
到 文件 表 中 它 的 引用 计数 值 变 为 零 ， 所 以 子 进 程 这 边 的 连接 端 将 保持 打开 。 
练习 题 12.2 ” 当 一 个 进程 因为 某 种 原因 终止 时 ， 内 核 将 关闭 所 有 打开 的 描述 符 。 因 此 ， 当 子 进程 退出 时 ， 
它 的 已 连接 文件 描述 符 的 副本 也 将 被 自动 关闭 。 
练习 题 12.3 ”回想 一 下 ， 如 果 一 个 从 描述 符 中 读 一 个 字 节 的 请 求 不 会 阻塞， 那么 这 个 描述 符 就 准备 好 可 以 
读 了 。 假 如 EOF 在 一 个 描述 符 上 为 真 ， 那 么 描述 符 也 准备 好 可 读 了 ， 因 为 读 操作 将 立即 返回 一 个 零 返 回 
码 ， 表 示 EOF。 因 此 ， 刍 入 ctrl-d 会 导致 select 函数 返回 ， 准 备 好 的 集合 中 有 描述 符 0。 
练习 题 12.4 因为 变量 pool.read set 既 作为 输入 参数 也 作为 输出 参数 ， 所 以 我 们 在 每 一 次 调用 
select 之 前 都 重新 初始 化 它 。 在 输入 时 ， 它 包含 读 集合 。 在 输出 时 ， 它 包含 准备 好 的 集合 。 
练习 题 12.5 因为 线程 运行 在 间 一 个 进程 中 ， 它 们 都 共享 相同 的 描述 符 表 。 无 论 有 多 少 线程 使 用 这 个 已 连 
接 描述 符 ， 这 个 已 连接 描述 符 的 文件 表 的 引用 计数 都 等 于 1。 因 此 ， 当 我 们 用 完 它 时 ， 一 个 close 操作 就 
足以 释放 与 这 个 已 连接 描述 符 相 关 的 存储 器 资源 了 。 
练习 题 12.6 ”这 里 的 主要 的 思想 是 ， 栈 变量 是 私有 的 ， 而 全 局 和 静态 变量 是 共享 的 。 诸 如 cnt 这 样 的 静态 
变量 有 点 小 麻烦 ， 因 为 共享 是 限制 这 个 例子 中 ， 就 是 线程 例 程 。 

A. 下 面 就 是 这 张 表 : 


变量 实例 该 主线 种 引用 ? 
本 了 


myid.p0 


myid.pl 











说 明 : 
。ptr : 一 个 被 主线 程 写 和 被 对 等 线程 读 的 全 局 变量 。 
。cnt : 一 个 静态 变量 ， 在 存储 器 中 只 有 一 个 实例 ， 被 两 个 对 等 线程 读 和 写 。 
“im: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 。 虽 然 它 的 值 被 传递 给 对 等 线程 ， 但 是 对 等 线程 也 绝 不 
会 在 栈 中 引用 它 ， 因 此 它 不 是 共享 的 。 
“msgs .m : 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 ， 被 两 个 对 等 线程 通过 ptr 间接 地 引用 。 
。myid.0 和 myid.1l: 一 个 本 地 自动 变量 的 实例 ， 分 别 驻 留 在 对 等 线程 0 和 线程 荆 的 栈 中 。 
B. 变量 ptr、cnt 和 msgs 被 多 于 一 个 线程 引用 ， 因 此 它们 是 共享 的 。 
练习 题 12.7 ”这 里 的 重要 思想 是 ， 你 不 能 假设 当 内 核 调 度 你 的 线程 时 ， 会 如 何 选择 顺序 。 


1 1 
2 1 
3 2 
4 2 
3 2 
6 2 
7 1 
8 1 
9 1 

2 


2 bp OOOOOOR 


| 
© 
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变量 cnt 最 终 有 一 个 不 正确 的 值 1。 
练习 题 12.8 ”这 道 题 简 单 地 测试 你 对 进度 图 中 安全 和 不 安全 轨迹 线 的 理解 。 像 A 和 C 这 样 的 轨迹 线 绕 开 了 
临界 区 ， 是 安全 的 ， 会 产生 正确 的 结果 。 

A. Hi, Li, Ui, $1, Hz, L2, U2, $2, T2,  : 安全 的 

B. Hz2, L2, Hi, Li, U1, 1, 1, U2, $2, T2 : 不 安全 的 

C. Hi, Hz, La, U2, $2, L1, U1, $1, 1, T2 : 安全 的 
练习 题 12.9 

A.p=1，c=1，n>1 : 是 ， 互 斥 锁 是 需要 的 ， 因 为 生产 者 和 消费 者 会 并 发 地 访问 缓冲 区 。 

B.p=1，c=1，n=1 : 不 是 ， 在 这 种 情况 中 不 需要 互 斥 锁 信 号 量 ， 因 为 一 个 非 空 的 缓冲 区 就 等 于 满 的 绥 

冲 区 。 当 缓冲 区 包含 一 个 项 目 时 ， 生 产 者 就 被 阻塞 了 。 当 缓冲 区 为 空 时 ， 消 费 者 就 被 阻塞 了 。 所 以 
在 任意 时 刻 ， 只 有 一 个 线程 可 以 访问 缓冲 区 ， 因 此 不 用 互 斥 锁 也 能 保证 互 斤 。 

C. p>1，c>1，n=1 : 不 是 ， 在 这 种 情况 下 ， 也 不 需要 互 斥 锁 ， 原 因 与 前 面 一 种 情况 相同 。 
练习 题 12.10 ”假设 一 个 特殊 的 信号 量 实现 为 每 一 个 信号 量 使 用 了 一 个 LIFO 的 线程 栈 。 当 一 个 线程 在 忆 操 
作 中 阻塞 在 一 个 信号 量 上 ， 它 的 ID 就 被 压 入 栈 中 。 类 似 地 ， 人 操作 从 栈 中 弹出 栈 顶 的 线程 ID， 并 重启 这 个 
线程 。 根 据 这 个 栈 的 实现 ， 一 个 在 它 的 临界 区 中 竞争 的 写 者 会 简单 地 等 待 ， 直 到 在 它 释放 这 个 信号 量 之 前 
另 一 个 写 者 阻塞 在 这 个 信号 量 上 。 在 这 种 场景 中 ， 当 两 个 写 者 来 回 地 传递 控制 权时 ， 正 在 等 待 的 读者 可 能 
会 永远 地 等 待 下 去 。 

注意 ， 虽 然 用 FIFO 队列 而 不 是 用 LIFO 更 符合 直觉 ， 但 是 使 用 LIFO 的 栈 也 是 对 的 ， 而 且 也 没有 违反 
P 和 矿 操 作 的 语义 。 : 
练习 题 12.11 这 道 题 简单 地 检查 你 对 加 速 比 和 并 行 效率 的 理解 : 


a 

练习 题 12.12 ctime ts 函数 不 是 可 重 入 函数 ， 因 为 每 次 调用 都 共享 相同 的 由 gethostbyname 函数 返回 
的 static 变 量 。 然 而 ， 它 是 线程 安全 的 ， 因 为 对 共享 变量 的 访问 是 被 已 和 下 操作 保护 的 ， 因 此 是 互 斥 的 。 
练习 题 12.13 ”如 果 在 第 15 行 调用 了 pthread create 之 后 ， 我 们 立即 释放 块 ， 那 么 我 们 将 引入 一 个 新 
的 竞争 ， 这 次 竞争 发 生 在 主线 程 对 free 的 调用 和 线程 例 程 中 第 25 行 的 赋值 语句 之 间 。 

练习 题 12.14 A. 另 一 种 方法 是 直接 传递 整数 i， 而 不 是 传递 一 个 指向 i 的 指针 : 


for (i = 0; i < N; i++) 
Pthread_create(&tid[i], NULL, thread, (void *)i); 


在 线程 例 程 中 ， 我 们 将 参数 强制 转换 成 一 个 int 类 型 ， 并 将 它 赋值 给 myid : 





int myid = (int) vargp; 


B. 优点 是 它 通过 消除 对 malloc 和 free 的 调用 降低 了 开销 。 一 个 明显 的 缺点 是 ， 它 假设 指针 至 少 和 
int 一 样 大 。 即 便 这 种 假设 对 于 所 有 的 现代 系统 来 说 都 为 真 ， 但 是 它 对 于 那些 过 去 遗留 下 来 的 或 今 
”后 的 系统 来 说 可 能 就 不 为 真 了 。 
练习 题 12.15 A. 原始 的 程序 的 进度 图 如 图 12-46 所 示 。 
B. 因为 任何 可 行 的 轨迹 最 终 都 陷入 死 锁 状态 中 ， 所 以 这 个 程序 总 是 会 死 锁 。 
C. 为 了 消除 潜在 的 死 锁 ， 将 二 元 信和 号 量 七 初始 化 为 1 而 不 是 0。 
D. 改正 后 的 程序 的 进度 图 如 图 12-47 所 示 。 
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Computer Systems : A Programmer’ s Perspective, 2E 
销 误 处 理 : 


程序 员 应 该 总 是 检查 系统 级 函数 返回 的 错误 代码 。 有 许多 细微 方式 导致 错误 的 出 现 ， 只 有 使 
用 内 核能 够 提供 给 我 们 的 状态 信息 才能 理解 为 什么 有 这 样 的 错误 。 不 幸 的 是 ， 程 序 员 往 往 不 愿意 
进行 错误 检查 ， 因 为 这 使 他 们 的 代码 变 得 很 庞大 ， 将 一 行 代码 变 成 一 个 多 行 的 条 件 语句 。 错 误 检 
查 也 是 很 令 人 迷惑 的 ， 因 为 不 同 的 函数 以 不 同 的 方式 表示 错误 。 

在 编写 本 书 时 ， 我 们 面临 类 似 的 问题 。 一 方面 ， 我 们 希望 我 们 的 代码 示例 阅读 起 来 简洁 明 
了 ; 另 一 方面 ， 我 们 又 不 希望 给 学 生 们 一 个 错误 的 印象 ， 以 为 可 以 省 略 错误 检查 。 为 了 解决 这 些 
问题 ， 我 们 采用 了 一 种 基于 错误 处 理 包装 函数 〈error-handle wrapper) 的 方法 ， 这 是 由 W.Richard 
Stevens 在 他 的 网 络 编程 教材 [109] 中 最 先 提出 的 。 

其 思想 是 ， 给 定 某 个 基本 的 系统 级 函数 foo， 我 们 定义 一 个 有 相同 参数 、 只 不 过 开头 字母 大 
写 了 的 包装 函数 Foo。 包 装 函 数 调用 基本 项 数 并 检查 错误 。 如 果 包 装 函 数 发 现 了 错误 ， 那 么 它 
就 打印 一 条 信息 并 终止 进程 。 和 否则 ， 它 返回 到 调用 者 。 注 意 ， 如 果 没 有 错误 ， 包 装 函 数 的 行为 与 
基本 函数 完全 一 样 。 换 句 话 说， 如果 程 序 使 用 包装 函数 运行 正确 ， 那 么 我 们 把 每 个 包装 函数 的 第 
一 个 字母 小 写 并 重新 编译 ， 也 能 正确 运行 。 

包装 函数 被 封装 在 一 个 源 文件 (csapp.c) 中 ， 这 个 文件 被 编译 和 链接 到 每 个 程序 中 。 一 
个 独立 的 头 文件 (csapp .h) 中 包含 这 些 包 装 函 数 的 函数 原型 。 

本 附录 给 出 了 一 个 关于 Unix 系统 中 不 同 种 类 的 错误 处 理 的 教程 ， 还 给 出 了 不 同 风格 的 错误 
处 理 包 装 函数 的 示例 。csapp .h 和 csapp.c 文件 可 以 从 CS:APP 网 站 上 获得 。 


A.1 Unix 系统 中 的 错误 处 理 


本 书 中 我 们 遇 到 的 系统 级 函数 调用 使 用 三 种 不 同 风格 的 返回 错误 : Unix 风格 的 、Posix 风格 
的 和 DNS 风格 的 。 

1.Unix 风格 的 错误 处 理 

像 fork 和 wait 这 样 Unix 早期 开发 出 来 的 函数 (以 及 一 些 较 老 的 Posix 函数 ) 的 函数 返回 
值 既 包括 错误 代码 ， 也 包括 有 用 的 结果 。 例 如 ， 当 Unix 风格 的 wait 函数 遇 到 一 个 错误 “〈 例 如 
没有 子 进程 要 回收 )， 它 就 返回 -1， 并 将 全 局 变量 errno 设置 为 指明 错误 原因 的 错误 代码 。 如 
果 wait 成 功 完 成 ， 那 么 它 就 返回 有 用 的 结果 ， 也 就 是 回收 的 子 进程 的 PID。Unix 风格 的 错误 处 
理 代码 通常 具有 以 下 形式 : 





] if ((pid = wait(NULL)) < 0) { 
2 fprintf (stderr, "wait error: hs\n", strerror(errno)); 
3 exit (0); 
4 上 
strerror 国 数 返回 某 个 errno 值 的 文本 描述 。 
2. Posix 风格 的 错误 处 理 
许多 较 新 的 Posix 函数 ， 例 如 Pthread 函数 ， 只 用 返回 值 来 表明 成 功 (0) 或 者 失败 ( 非 0)。 
任何 有 用 的 结果 都 返回 在 通过 引用 传递 进来 的 函数 参数 中 。 我 们 称 这 种 方法 为 Posix 风格 的 错误 
处 理 。 例 如 ，Posix 风格 的 pthread_create 肾 数 用 它 的 返回 值 来 表明 成 功 或 者 失败 ， 而 通过 
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引用 将 新 创建 的 线程 的 ID 〈 有 用 的 结果 ) 返回 放 在 它 的 第 一 个 参数 中 。Posix 风格 的 错误 处 理 代 
码 通常 具有 以 下 形式 : 


1 if ((retcode = pthread_create(&tid, NULL, thread, NULL)) != 0) { 


2 fprintf (stderr, "pthread_create error: %hs\n'", 
strerror(retcode)); 

3 exit (0); 

4 小 


3. DNS 风格 的 错误 处 理 
gethostbyname 和 gethostbyaddr 函数 检索 DNS (域名 系统 ) 主机 和 条目， 它们 有 另外 
一 种 返回 错误 的 方法 。 这 些 函 数 在 失败 时 返回 NULL 指针 ， 并 设置 全 局 变量 h_errno。DNS 风 
格 的 错误 处 理 通常 具有 以 下 形式 : 
1 if ((p = gethostbyname (name)) == NULL) { 
2 fprintf(stderr, "gethostbyname error: %s\n:", 
hstrerror(h_errno) ) ; 


3 exit(O) ; 
4 } 


4. 错误 报告 函数 小 结 
贯穿 本 书 ， 我 们 使 用 下 列 错误 报告 函数 来 包容 不 同 的 错误 处 理 风格 : 


#include "csapp.h" 


void unix_error(char *msg); 
void posix_error(int code, char *msg); 


void dns_error(char *msg); 
void app_error(char *msg); 





正如 它们 的 名 字 表 明 的 那样 ，unix error、 posix error 和 dns error 函数 报告 Unix 
风格 的 错误 、Posix 风格 的 错误 和 DNS 风格 的 错误 ， 然 后 终止 。 包 括 app_error 函数 是 为 了 方便 
报告 应 用 销 误 。 它 只 是 简单 地 打印 它 的 输入 ， 然 后 终止 。 图 A-1 展示 了 这 些 错误 报告 函数 的 代码 。 


code/src/csapp.c 
1 void unix_error(char *msg) /* Unix~style error */ 
2 所 
3 fprintf (stderr, "%s: %s\n", msg, strerror(errno)); 
4 exit (0); 
5 3} 
6 
7 void posix_error(int code, char *msg) /* Posix-style error */ 
8 { 
9 fprintf(stderr, "%s: %s\n", msg, strerror(code)); 
10 exit (0); 
11 } 
12 
13 void dns_error(char *msg) /* DNS-style error */ 
14 二 
15 fprintf(stderr, "%s: DNS error %d\n", msg, h_errno); 


图 A-1 馈 误 报告 函数 
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16 exit(0); 
t 和 款 
18 
19 void app_error(char *msg) /* Application error */ 
20 二 
21 fprintf (stderr, "%s\n", msg); 
22 exit (0); 
23 } 
code/src/csapp.c 
图 A-1 ( 续 ) 
code/src/csapp.c 
1 pid_t Wait(int *status) 
2” 省 
3 pid._t pid,; 
4 
if ((pid = wait(status)) < 0) 
6 unix_error('"Wait error'"); 
2 return pid; 
8 3} 
code/src/csapp.c 


图 A-2 Unix 风格 的 wait 函数 的 包装 沙 数 


A.2 ”错误 处 理 包 装 函 数 


ee 同 错误 处 理 包 装 函 数 的 示例 : 
Unix 风格 的 错误 处 理 包 装 函 数 。 图 A-2 展示 了 Unix 风格 的 wait 函数 的 包装 函数 。 如 
果 wait 返回 一 个 错误 ， 包 装 函 数 打 印 一 条 消息 ， 然 后 退出 。 否 则 ， 它 同调 用 者 返回 一 
: 人 图 A-3 展示 了 Unix 风格 的 kil11 函数 的 包装 函数 。 注 意 ， 这 个 函数 和 wait 不 


， 成 功 时 返回 void。 
code/src/csapp.c 
1 void Kill(pid_t pid, int signum) 
2 { 
3 int rc; 
4 
5 if ((rc = kill(pid, signum)) < 0) 
6 nix_error("Kill] error"); 
7 
code/src/csapp.c 


图 A-3 Unix 风格 的 kill 函数 的 包装 函数 


。Posix 风格 的 错误 处 理 包 装 函 数 。 图 A-4 展示 了 Posix 风格 的 pthread detach 函数 的 包 
装 函 数 。 同 大 多 数 Posix 风格 的 函数 一 样 ， 它 的 错误 返回 码 中 不 会 包含 有 用 的 结果 ， 所 以 
成 功 时 ， 包装 函数 返回 Vold。 
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code/src/csapp.c 


void Pthread_detach(pthread_t tid) +{ 
int ITC; 


if ((rc = pthread_detach(tid)) != 0) 
posix_error(rc, 'Pthread_detach error'); 


OV ni RN 


code/src/csapp.c 


图 A-4 Posix 风格 的 pthread detach 函数 的 包装 水 数 
。 DNS 风格 的 错误 处 理 包 装 函 数 。 图 A-5 展示 了 DNS 风格 的 gethostbyname 函数 的 包装 函数 。 


- code/src/csapp.c 
1 struct hostent *Gethostbyname (const char *name) 
2 .1{ | 
3 struct hostent *p; 
4 8 
5 if ((p = -gethostbyname(name)) == NULL) 
6 dns_error("Gethostbyname error'"); 
7 return p; 
a 

code/src/csapp.c 


图 A-5 DNS 风格 的 gethostbyname 函数 的 包装 函数 
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